自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Hive | map数据类型的用法

平时很少用到map类型,这次用到了记录一下。 举个栗子: select mid, tags['电影'] as movie, tags['音乐'] as music from( select mid,str_to_map(concat_ws(',',collect_list(concat(key,":",value)))) as tags from ( s...

2018-08-23 22:35:31 12378

原创 Hive | 用sort_array函数解决collet_list列表排序混乱问题

由collect_list形成的列表经过concat_ws拼接后顺序具有随机性,要保证列表有序只需要在生成列表后使用sort_array函数进行排序即可,示例如下: SELECT memberid, regexp_replace( concat_ws('-', sort_array( ...

2018-08-09 21:50:00 44969 9

原创 Python | 爬虫抓取影评生成词云

在大数据领域词云也不是啥新鲜事了,记得若干年前微博也有生成词云的功能,我的微博最大的关键字好像是“吃”来着…… 本文是参考Python 爬虫实战(1):分析豆瓣中最新电影的影评改写而来,python版本为2.7,用的框架是beautiful。 详细内容可进链接学习,以下代码只用于本菜鸡个人学习记录。 import urllib from bs4 import BeautifulSou...

2018-08-09 21:33:38 1843

原创 Python | 爬虫抓取豆瓣音乐剧作品

前段时间看了《跳出我天地音乐剧》,这是第一次接触音乐剧整个爱上了,后来又看了《摇滚莫扎特》、《歌剧魅影》,还刷了现场的《猫》,都特别喜欢,于是想爬下豆瓣音乐剧的内容,给自己一个刷剧列表。 代码是参照下面这个教程改写的(谢谢原作者带我入门!),这里爬取的是豆瓣音乐剧标签下的所有作品,用的xpath。 Python爬虫入门 | 4 爬取豆瓣TOP250图书信息 首先导入包 from l...

2018-08-09 21:20:44 490 1

原创 Python | 定时压缩指定文件夹发送邮件

工作中每天需要收集部门内的FR文件,用发送给外部部门的同事帮忙上传,这么发了有大半年,昨天亮光一闪,为什么不做成自动化呢,于是用python实现了整个流程,今天体验了一下真是美滋滋。 代码如下 首先导入需要的包 import win32com.client as win32 import datetime import os import zipfile 定义三个函数,都是网上抄别...

2018-08-09 20:51:57 1335

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除