Hive练习-微博数据统计分析

这篇博客主要介绍了如何使用Hive进行微博数据的统计分析,包括数据的合并、Hive表的创建与导入、字段解析、各项统计指标的计算等。涉及的数据包括用户的微博历史记录,数据量大,格式为json。内容涵盖数据处理方案、统计微博总量、独立用户数、转发次数、带图片微博、使用iPhone发博用户、点赞与转发总和、评论次数小于1000的用户、'iphone'出现次数、每天最多发博用户以及被多次引用照片的统计。
摘要由CSDN通过智能技术生成

1、数据描述

1、数据描述:用户的历史微博数据,截止到20131215,压缩后221MB,解压后878MB,整个数据有1206个小文件,所有数据的格式均是json格式。

2、数据样例

[{"beCommentWeiboId":"","beForwardWeiboId":"","catchTime":"1387157643","commentCount":"682","content":"喂!2014。。。2014!喂。。。","createTime":"1387086483","info1":"","info2":"","info3":"","mlevel":"","musicurl":[],"pic_list":["http://ww1.sinaimg.cn/square/47119b17jw1ebkc9b07x9j218g0xcair.jpg","http://ww4.sinaimg.cn/square/47119b17jw1ebkc9ebakij218g0xc113.jpg","http://ww2.sinaimg.cn/square/47119b17jw1ebkc9hml7dj218g0xcgt6.jpg","http://ww3.sinaimg.cn/square/47119b17jw1ebkc9kyakyj218g0xcqb3.jpg"],"praiseCount":"1122","reportCount":"671","source":"iPhone客户端","userId":"1192336151","videourl":[],"weiboId":"3655768039404271","weiboUrl":"http://weibo.com/1192336151/AnoMrDstN"}]

2、字段描述

总共19个字段

beCommentWeiboId  是否评论

beForwardWeiboId 是否是转发微博

catchTime 抓取时间

commentCount 评论次数

content 内容

createTime 创建时间

info1 信息字段1

info2信息字段2

info3

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值