![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
向前走呀不回头
这个作者很懒,什么都没留下…
展开
-
python WordCloud 简单实例
前端时间爬下了拉勾网关于数据挖掘职位的相关信息(爬取可看我的另一篇博客https://blog.csdn.net/cy776719526/article/details/80094817),于是就打算把ta的职位要求做成词云呈现出来,由于刚刚学习,所以只是一个简单的实例所有我爬下的岗位要求都保存到了一个名为岗位需求的TXT文件中(已保存在网盘中https://pan.baidu.com/s/1ym...原创 2018-05-02 21:43:55 · 31304 阅读 · 6 评论 -
python 'PngImageFile' object has no attribute 'shape'
我在生成词云是导入图片的时候冒出来这么个问题,在网上搜了一下,没有看到解决方法(也许是我的搜索姿势不对)部分代码如xia,img = Image.open(path)wc = WordCloud( background_color='white', width=1000, height=300, mask=img, font_path=font, ...原创 2018-05-02 22:02:47 · 28255 阅读 · 3 评论 -
python爬虫 编码错误 file open修改编码方式
在使用requests.get(url).text获取到文本后,将文本写入通过open(uri,'w+')打开的文件后,修改文件名后缀为html,打开后所有字符乱码,查阅资料后是因为编码问题,win中的txt默认为ANSI(选择另存为可查看),而从通过爬取网页读取的文本编码方式为utf-8,所以在打开文件的时候需要设置open打开文件的编码方式,具体命令为file=open(uri,'r+',en...原创 2018-04-25 11:14:16 · 914 阅读 · 0 评论 -
简单python爬虫爬取拉钩网
因为个人需求,爬取了拉钩网数据挖掘相关职位的数据首先先进入到拉钩的首页,搜索数据挖掘,得到相关职位的列表,按F12,查看网络查看html,可以看到职位列表并不在html所以肯定是通过XHR异步加载的,再切换到XHR,可以找到4个,点开查看,可以看到在一个请求中有我们需要的信息:再切换到一个具体的职位中查看,可以看到,有一串编号,跳回到刚刚的xhr中查看,可以看到有一个positionID与之对应,...原创 2018-04-26 16:08:47 · 1569 阅读 · 1 评论 -
多线程爬取网易云歌曲评论
之前用爬虫爬取了拉钩网的岗位信息,而那个效率比较低,现在略作升级,做成多线程,目标也换成了网易云。首先在浏览器上打开网易云音乐,找到想要爬取的歌曲,我选择的是《一直很安静》,打开开发者工具,找到网络,在html的响应中并未找到歌曲评论,再到xhr中找,很容易就能找到一个名为R_OS开头的文件包含了我们想要的东西接着我们再跳到参数选项,赫然显示两个非常长的字符串,很明显,这是加密过的,而具体破解方法...原创 2018-05-11 10:44:12 · 1550 阅读 · 5 评论 -
拉钩网 数据分析与可视化
前端时间爬取了拉钩网的某一职位的相关信息,于是就有了分析一下这些数据的想法,爬取的方式可以看我的另一篇博客,我的数据一被处理成了csv格式的数据,存储在云盘(https://pan.baidu.com/s/1-Iq9fcpJctvL4oe4JZ2HWg)有需要的可自行下载,代码也在里面了,csv文件的数据主要是以下的这些在csv中存储的格式为第一列为职位名称,第二,三列为薪水的范围,第四列为工作城...原创 2018-05-05 09:36:15 · 1442 阅读 · 0 评论