hive+python数据分析入门

最新推荐文章于 2023-08-18 13:02:33 发布

djd已经存在

最新推荐文章于 2023-08-18 13:02:33 发布

阅读量7.1k

点赞数 3

分类专栏： hive学习

本文链接：https://blog.csdn.net/djd1234567/article/details/51145102

版权

为什么要使用hive+python来分析数据

举个例子,

当年没有数据库的时候, 人们编程来操作文件系统, 这相当于我们编写mapreduce来分析数据

后来有了数据库, 再没人操作文件系统了(除非有其它需求), 而是直接使用sql和一些语言(php, java, python)来操作数据. 这就相当于 hive + python了

hive + python能解决大多的需求, 除非你的数据是非结构化数据, 此时你就回到了远古时代不得不写mapreduce了.

而为什么不使用hive+java, hive+c, hive+...

因为:

python真是太好用了, 脚本语言, 无需编译, 有强大的机器学习库, 适合科学计算(这就是数据分析啊!!)

使用hive+python来分析数据

hive与python的分工: 使用hive sql作为python的数据源, python的输出作为map的输出, 再使用hive的聚合函数作为reduce.

下面使用一个例子来分析: 统计每个人在某日期人下吃的各种食品的数量

建表 user_foods 用户食品表

hive> create table user_foods (user_id  string, food_type string, datetime string
)  partitioned by(dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' STORED AS TEXTFILE

# partitioned by(dt string) 以日期分区
# 斜体部分表示行与行之间以\n分隔, 字段与字段间以\t分隔.

根据业务需要, 因为是按天来统计, 为减少分析时的数据量, 上述hive表以dt(日期)为分区.

创建Hive表后, 会在HDFS /hive/目录下创建一个与表名同名的文件夹

导入数据

最低0.47元/天解锁文章

djd已经存在

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
hive+python数据分析入门

为什么要使用hive+python来分析数据举个例子,当年没有数据库的时候, 人们编程来操作文件系统, 这相当于我们编写mapreduce来分析数据后来有了数据库, 再没人操作文件系统了(除非有其它需求), 而是直接使用sql和一些语言(php, java, python)来操作数据. 这就相当于 hive + python了hive + python能解决大
复制链接

扫一扫

专栏目录