九耶丨钛伦特-教你使用Java语言清洗京东商品数据

最新推荐文章于 2024-09-02 20:52:37 发布

九耶（钛伦特）

最新推荐文章于 2024-09-02 20:52:37 发布

阅读量854

点赞数 6

分类专栏：九耶丨钛伦特-Java学院文章标签： java 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_69234258/article/details/130026138

版权

文章详细介绍了如何使用Java通过MapReduce技术进行数据清洗，特别是针对日志类型数据。过程包括创建项目、添加Hadoop依赖、构建JavaBean、处理数据的去重、去空、去异常等步骤。文章提到了Lombok库用于简化JavaBean的getter、setter和构造器，以及在序列化过程中遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

数据清洗是数据处理的前奏，也是数据处理的关键所在。使用java语言通过mapreduce技术可以实现数据清洗，一般对日志类型的数据会进行这样的清洗。

数据的清洗主要需要处理的是数据的过滤，重在三步走，去重，去空，去异常。

具体操作使用步骤如下。

1、使用IntelliJ IDEA新建项目。

2、这里通过maven技术实现项目数据的清洗。

3、接下来添写大数据开发需要的hadoop相关的groupId或artifactId。

4、点击“Next”进入下一步，接下来的窗口参数默认。点击Finish完成

5、使用maven技术开发项目，需要指定相关依赖。

这里的程序Mapper，Ruducer，Job，一定要注意json数据是值对，值对有JavaBean对应。

值对就是面向对象，面向对象就是一个属性一个值，json数据就是一个属性一个值。json对应java对象。遇到json一定有JavaBean。

注意企业中常见的问题就是wordcount的问题，即在项目中统计文档中英文出现的个数，如英文单词 hadoop的个数，结合到企业中的分析，如一天内用户点击率有多少，把用户点击率当成word，然成求count，只要清楚哪一列是用户点击率。

下面进入开发的步骤，需要建立JavaBean，JavaBean作用让你知道每一列到底是何意义。

第一步：建立一个GoodsBean，建立之后数据有意义。

第二步：把GoodsBean里面Json对应的属性全部写入。

注意：price为什么在Bean中定义成String，它是Float型，我们要做的事是清洗，去空，如果抓取的price为空，这个地方显示空，如果是Float，这个地方显示的是0。爬虫爬取的时候，一般原生数据直接爬取，是空的可能性比是0的可能性大。尤其对爬虫来说不是写代码，比如八爪鱼这类类似于爬虫的工具，这个不需要写代码。这里就把price做字符串处理。后续导入hive时没有空数据，没有空数据就可以作Float。

定义完属性后,代码如下：

定义getter和setter 方法，为了面向对象的封装道理，因为私有属性，做取数据和设置数据的接口。

在代码处右键，选择”Generate....”

点击”Generate....”,选择getter和setter

最低0.47元/天解锁文章

九耶（钛伦特）

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。