bigdata_舆情热点挖掘项目2

该博客讲述了从CSV格式的微博数据开始,通过Hive进行数据存储和处理的详细流程,包括数据源的选择、数据加载、数据检验与矫正、分词UDF的编写,重点介绍了使用ansj分词器进行中文分词的过程。
摘要由CSDN通过智能技术生成

一.scv介绍:

    • Csv
      • Comma-separated-values,逗号分隔值文件

二.开发细节与风险控制

开发细节当中即伴随着各种各样的风险,并要即时反馈和处理风险,如工作量评估、技术难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分。

三.开发细节:

     3.1  确定源数据文件集合

           来源渠道:1.自行写网络爬虫,研发成本高

                             2.公开数据集

                             3.第三方数据买卖公司:无研发成本,需付费。

    3.2 渠道选择:

                公开数据集

    3.3 确定数据集:       

2012年自年初到年末的约2.2亿条微博数据

共52周的数据,按天粒度来存储,合计364天数据,即364个zip包,如下列表

    3.4确定数据文件格式

   解压后为csv格式文件

   3.5 确定数据结构及Demo数据查看

        数据表结构

序号

字段名称

字段解释

备注

1

mid

消息的唯一id

对官方mid的加密后的结果

2

retweeted_status_mid

转发的原创微博的mid

如果该博文是转发,此值原博文的mid值

3

uid

微博主的id值

4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值