- 博客(5)
- 收藏
- 关注
原创 Hive | map数据类型的用法
平时很少用到map类型,这次用到了记录一下。 举个栗子: select mid, tags['电影'] as movie, tags['音乐'] as music from( select mid,str_to_map(concat_ws(',',collect_list(concat(key,":",value)))) as tags from ( s...
2018-08-23 22:35:31 12378
原创 Hive | 用sort_array函数解决collet_list列表排序混乱问题
由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可,示例如下: SELECT memberid, regexp_replace( concat_ws('-', sort_array( ...
2018-08-09 21:50:00 44969 9
原创 Python | 爬虫抓取影评生成词云
在大数据领域词云也不是啥新鲜事了,记得若干年前微博也有生成词云的功能,我的微博最大的关键字好像是“吃”来着…… 本文是参考Python 爬虫实战(1):分析豆瓣中最新电影的影评改写而来,python版本为2.7,用的框架是beautiful。 详细内容可进链接学习,以下代码只用于本菜鸡个人学习记录。 import urllib from bs4 import BeautifulSou...
2018-08-09 21:33:38 1843
原创 Python | 爬虫抓取豆瓣音乐剧作品
前段时间看了《跳出我天地音乐剧》,这是第一次接触音乐剧整个爱上了,后来又看了《摇滚莫扎特》、《歌剧魅影》,还刷了现场的《猫》,都特别喜欢,于是想爬下豆瓣音乐剧的内容,给自己一个刷剧列表。 代码是参照下面这个教程改写的(谢谢原作者带我入门!),这里爬取的是豆瓣音乐剧标签下的所有作品,用的xpath。 Python爬虫入门 | 4 爬取豆瓣TOP250图书信息 首先导入包 from l...
2018-08-09 21:20:44 490 1
原创 Python | 定时压缩指定文件夹发送邮件
工作中每天需要收集部门内的FR文件,用发送给外部部门的同事帮忙上传,这么发了有大半年,昨天亮光一闪,为什么不做成自动化呢,于是用python实现了整个流程,今天体验了一下真是美滋滋。 代码如下 首先导入需要的包 import win32com.client as win32 import datetime import os import zipfile 定义三个函数,都是网上抄别...
2018-08-09 20:51:57 1335
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人