![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop开发实践
文章平均质量分 76
devtao
这个作者很懒,什么都没留下…
展开
-
微博数据清洗(Java版)
大数据公益大学提供的一份数据,义务处理一下,原始数据是Excel,含有html标签,如下:要求清洗掉html标签,和微博内容中的url地址。主要分为两部分:1.处理文本,清洗数据。2.处理excel读写操作。上代码:ExcelUtil类,包含Excel2003-2007的读写操作,Excel使用Apache POI进行操作,需要jar包如下:原创 2013-12-10 10:58:24 · 7209 阅读 · 1 评论 -
微博数据清洗(Python版)
具体介绍请参考: 微博数据清洗(Java版)本文是Python版本的介绍,只有数据清洗部分不含对Excel的操作,包含去除html标签和去掉信息里的url地址。Python的代码相对java简明了太多# -*- coding: UTF-8 -*-'''Created on 2013年12月10日@author: daT dev.tao@gmail.com'''im原创 2013-12-11 18:09:01 · 9584 阅读 · 3 评论