- 博客(1)
- 资源 (4)
- 收藏
- 关注
原创 豆瓣电视剧评论的爬取以及进行情感分析+生成词云
很多时候我们要了解一部电视剧或电影的好坏时都会去豆瓣上查看评分和评论,本文基于豆瓣上对某一部电视剧评论的爬取,然后进行SnowNLP情感分析,最后生成词云,给人一个直观的印象1. 爬取评论以前段时间比较火热的《猎场》为例,因豆瓣网有反爬虫机制,所以在爬取时要带登录后的cookie文件,保存在cookie.txt文件里,具体代码及结果如下:import requests, codec
2018-01-09 15:27:03 11139 3
Scrapy爬取西刺网站代理IP并写入MySQL(源码)
本文准备爬取国内高匿代理部分的IP信息,通过火狐浏览器可以看到有效信息都在id为ip_list的table里面,所以通过xpath和正则表达式即可拿到想要的信息。通过观察不同分页的url后发现从每二页开始每个url后面的数字即为当前页次,因而可以列举所有页面(本文示例代码爬取前三页)
2017-11-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人