3.3电商评论数据清洗

本文介绍了电商评论数据的清洗过程,强调了数据清洗的重要性,解析了Json格式的评论数据,提取关键字段,如评论内容、评分、昵称等,并展示了如何使用MapReduce进行数据清洗,最终输出结构化的文本文件。
摘要由CSDN通过智能技术生成

实验3.3电商评论数据清洗

字体:

1.数据清洗概述

数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据错误的数据重复的数据三大类。数据清洗与问卷审核不同,录入后的数据清洗一般是由计算机而不是人工完成。

 

2.解析Json

通过爬虫,我们可以得到一些Json形式的数据文件。

 

但是Json文件,内容格式比较混乱。所以还需要进一步清洗,提取出有用的信息。

 

上一节,演示了使用代码格式化工具如http://tool.oschina.net/codeformat/json,或https://www.bejson.com/jsonviewernew/ Json评论进行格式化的过程。

格式化后的代码,显得结构更加明显清晰

例如,comments中详细内容:

id": 10432588299,  

guid": "6c1d83b1-ac45-4189-a041-774eaff87df9",  

content": "割手,相当的割手,无语了",  //评论内容 √  

creationTime": "2017-05-22 23:37:24", //写评论的时间 √  

isTop": false,                        //是否置顶  

referenceTime": "2017-05-20 18:35:11",//收货时间 √  

firstCategory": 9987,                 //第一分类 √  

secondCategory": 653,                 //第二分类 √  

thirdCategory": 655,                  //第三分类 √  

replyCount": 0,  

score": 3,                            //打分 √  

nickname": "j***",                  //昵称  √  

userClient": 2,  

productColor": "碳黑色",  

productSize": "32GB",  

userLevelName": "金牌会员",           //会员级别 √  

plusAvailable": 0,  

productSales": [  

   {  

       "dim": 3,  

       "saleName""选择套装",  

       "saleValue""官方标配"  

   }  

,  

userClie

RTCM 3.3是实时差分数据的标准电文格式。RTCM是Real-Time Control and Monitoring的缩写,3.3代表标准的版本号。差分数据电文是用于GPS或GNSS测量的实时差分校正数据的传输格式。 RTCM 3.3差分数据电文包含了卫星测量和校正信息。具体而言,它包括了接收器接收到的卫星观测量数据,比如伪距和载波相位观测值。同时,它也包含了基准站所测量到的卫星观测量数据,这些数据经过了精确的校正。 差分数据电文的目的是提供精确的位置修正信息,以提高GPS或GNSS测量的精度。接收器通过接收基准站发送的电文,使用其中的校正数据对接收到的卫星观测数据进行计算和修正。通过使用差分数据电文进行差分校正,可以将GPS或GNSS测量的定位精度提高到厘米级甚至更高的精度。 RTCM 3.3差分数据电文具有扩展性和灵活性,可以根据不同的需求进行定制。它可以包括不同类型的卫星信号观测量数据和校正数据,如L1/L2或L5频段的伪距和载波相位观测量数据。此外,差分数据电文中还可以包含其他附加信息,如接收器状态、天线高度和信噪比等。 总之,RTCM 3.3差分数据电文是用于GPS或GNSS测量的实时差分校正数据的传输格式,提供了卫星观测量数据和校正数据,用于提高定位精度。它的扩展性和灵活性使得可以根据需求进行定制,并且可以包含其他附加信息。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值