千万级微博语料数据整理

数据说明 整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富 数据最终是一个json文件,每一行都是一个小的json { "_id": { "$oid": "5a6...

2018-01-27 14:53:55

阅读数:2013

评论数:0

给爬虫加上Shadowsocks代理

起源遇到抓取一个境外的网站,浏览器可以正常访问,但是requests请求却一直被拒绝了!折腾了好久,才发现,关了Shadowsocks浏览器也不能访问!原来,这个站点直接屏蔽了国内的IP所以,得给爬虫加上Shodowsocks的代理,科学爬虫!步骤装个包在requests中采用socks代理需要先...

2018-01-26 18:16:51

阅读数:1602

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭