实验3.3电商评论数据清洗
字体:
1.数据清洗概述
数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗与问卷审核不同,录入后的数据清洗一般是由计算机而不是人工完成。
2.解析Json
通过爬虫,我们可以得到一些Json形式的数据文件。
但是Json文件,内容格式比较混乱。所以还需要进一步清洗,提取出有用的信息。
上一节,演示了使用代码格式化工具如http://tool.oschina.net/codeformat/json,或https://www.bejson.com/jsonviewernew/ 对Json评论进行格式化的过程。
格式化后的代码,显得结构更加明显清晰
例如,comments中详细内容:
id": 10432588299,
guid": "6c1d83b1-ac45-4189-a041-774eaff87df9",
content": "割手,相当的割手,无语了", //评论内容 √
creationTime": "2017-05-22 23:37:24", //写评论的时间 √
isTop": false, //是否置顶
referenceTime": "2017-05-20 18:35:11",//收货时间 √
firstCategory": 9987, //第一分类 √
secondCategory": 653, //第二分类 √
thirdCategory": 655, //第三分类 √
replyCount": 0,
score": 3, //打分 √
nickname": "j***柜", //昵称 √
userClient": 2,
productColor": "碳黑色",
productSize": "32GB",
userLevelName": "金牌会员", //会员级别 √
plusAvailable": 0,
productSales": [
{
"dim": 3,
"saleName": "选择套装",
"saleValue": "官方标配"
}
,
userClie