一、案例综述
案例编号:101001
案例名称:互联网行业——网站用户行为分析
作者姓名(或单位、或来源):刘莎莎
案例所属行业:G6020互联网信息
案例所用软件:
、Sas EG、TOAD、SAS EM
案例包含知识点:
数据导入txt导入数据导出导出为txt txt导入SasEG SAS数据格式修改 频数统计 相关分析 相关系数 相关系数矩阵RFM模型 聚类分析 关联规则频数统计
案例描述:
根据中国互联网络信息中心发布第36次《中国互联网络发展状况统计报告》显示,截至2015年6月,我国网民规模达6.68亿,互联网普及率为48.8%。我国互联网的高速发展普及为互联网企业带来了巨大的发展机遇。
相对于传统的工业领域,互联网领域的入门门槛较低,这一特点有利于更多的企业加入互联网浪潮,以便为人民生活提供更好的服务,但也正是互联网企业的服务模式易于拷贝的原因,导致了同质化竞争激烈的互联网企业发展格局。
为了解决这一问题,通过对网站用户行为进行数据分析,有利于互联网企业准确把握网站发展的实际情况以及网站用户心理需求和心理习惯,从而更有效地利用企业资源,以便在激烈的同质化竞争中找到属于自己的服务特点,获得比较优势,最终赢得竞争。
此案例所用数据集来自于一个互联网企业,属于论坛性质。共有三个数据集。member.txt、tiezi.txt 、bankui.txt分别是会员个人信息表(包括会员的一些属性:出生日期,专长,关注领域等)、浏览帖子信息表(四个字段,第一个是会员id,第二个是会员浏览时间,第三个是会员浏览帖子的链接代码,第四个变量为浏览的为该帖子的第几页),浏览板块信息表(三个字段,第一个是会员id,第二个是会员浏览时间,第三个是会员浏览板块的链接代码)。数据缺陷无法提供板块和帖子的对应情况。其中member.txt数据集中共包含106745条记录,bankuai.txt数据集中共包含765015条记录,tiezi.txt数据集中共包含3832002条记录。
各知识点介绍如下:
第1个知识点介绍的是如何借助于第三方数据库管理软件toad把三个txt数据文件导入到数据库中。
第2个知识点介绍的是如何借助于第三方数据库管理软件toad把三个txt数据数从数据库forum中导出为三个txt文件,将导出的三个txt文件保存为member.txt,tiezi.txt,bankuai.txt,然后在这个基础之上对本章后面的小节进行操作。
第3个知识点是将三个txt文件导入到SAS-EG中,保存为sas格式的数据集放在建立的逻辑库test中,并且对日期时间变量进行输出格式的修改,使其显示为正确的日期时间格式。三个sas数据文件分别为member.sas4bdat,bankuai.sas7bdat,tiezi.sas7bdat。
第4个知识点是对论坛数据进行一些描述性分析,在tiezi.sas7bdat基础之上寻找到最火的帖子。
第5个知识点是对论坛数据进行一些描述性分析,是在member.sas7bdat基础之上对论坛用户的男女比例进行描述性分析。
第6个知识点是在tiezi.sas7bdat基础之上通过生成查询生成器的方式计算每个人浏览的帖子总数,并且进行用户名字的去重。然后将查询结果和member.sas7bdat数据集进行横向合并,从而将用户年龄和浏览贴子数放在了一个表中。然后进行两个变量的相关性分析。
第7个知识点是在tiezi.sas7bdat数据集的基础之上进行进一步的计算,然后用RFM模型对客户进行画像分析,从而找到最有价值的客户。
第8个知识点在bankuai.sas7bdat数据集的基础之上用sasEM模块对数据进行板块的关联规则分析,从而可以发现一些推荐规则。
第9个知识点是在member.sas7bdat基础之上用SasEM模块的文本挖掘部分对关注领域字段进行关键词频数分析,从而找到关注度最高的关键词。
案例执行形式:单人上机
二、案例知识点
知识点1
知识点名称:将txt数据文件导入到
知识点所属工作角色:数据导入
知识点背景:我们通常会获取各种类型的数据文件,比如txt,excel等,通常需要将这些文件导入到数据库中,从而方便进行长期存储和调用。
知识点描述:将txt数据导入到
知识点关键词:数据库的建立、新建表、数据导入
知识点所用软件:MySQL5.6 Toad for MySQL 6.7
操作目的:将txt数据导入到中。
知识点素材(包括数据):Member.txt,tiezi.txt,bankuai.txt
操作步骤:
Ø 安装Toad for MySQL编辑器,成功设置权限;
Ø 在逻辑库下选择forum数据库,界面如下图所示;
Ø 单击工具栏中的“Tools”选项,执行“Import”,“Import Wizard”命令,如图4.21,弹出数据导入向导窗口,如下图所示,点击Next。
导入数据
Ø 点击“Next”,如下图,继续进行;
导入数据
Ø 点击“Add File”,选择文件所在位置添加文件,如下图;
导入数据
Ø 选择“Comma”(即以逗号为分隔符),选择“Column names as head”(即将原文件中的第一行作为列名)及Empty files are n(即将缺失的数据也插入新表中),点击“Next”继续进行,如下图;
导入数据
Ø 再次点击“Next”继续进行,在数据导入向导窗口的Select Target步骤中,选择“A single new table”(即新建一个表),在Schema下拉列表中选择创建的数据库forum,在“Table name”中输入新表的名称“member”,根据事先对数据的大致了解,将field6、field7、lingyu的数值类型改为VARCHAR(200),将zhuanchang的数值类型改为VARCHAR(500),同时选中memberid,将光标定位在memberid前面,点击“Set Primary Key”,即将memberid设置为主键,如下图所示,点击Next按钮。
图 导入数据