My大数据项目
sheep8521
让优秀成为一种习惯
展开
-
Python常用模块(一)pandas
Pandas模块,我觉得掌握这些就够用了! 一、数据读写 案例演示 # 读入MySQL数据库数据 # 导入第三方模块 import pymysql # 连接MySQL数据库 conn = pymysql.connect(host='localhost', user='root', password='test', database='test',...原创 2019-09-04 11:14:43 · 374 阅读 · 0 评论 -
HIVE优化操作总结
hive数据倾斜优化策略 1、Map端部分聚合 (mapjoin) set hive.map.aggr=true 默认是true。 例子: select gender,count(1) from user group by gender; 适合场景:groupby_key是不散列,首先对map端进行汇总是有意义的。 不适合场景: 不是所有的聚合都需要这个优化。 groupby_key是用户ID...原创 2019-08-30 18:34:22 · 341 阅读 · 0 评论 -
Python的使用总结
1、 改变print自动换行 template = "零一二三四五六七八九" s = input() for c in s: print(template[eval(c)], end="") print()中增加end=""参数表示输出后不增加换行,多个print()可以连续输出。 2、 产生循环遍历的方式 tempStr 是字符串 1)for …in for i in tempSt...原创 2019-08-29 19:50:30 · 901 阅读 · 0 评论