微博爬虫,每日百万级数据

前言新浪微博绝对是一个巨大的,实时的语料库!对微博数据爬取和分析,有重大的意义。 比如,现在要调查工商银行的服务态度,就可以抓取微博内容中包含工商银行的微博语料,然后做情感分析,就可以得到用户对银行服务的满意程度。再比如,最近火热的明星鹿晗,可以抓取鹿晗的粉丝信息,分析这些粉丝处于什么年...

2017-11-01 15:58:28

阅读数:12610

评论数:15

构建爬虫代理池

proxypoolproxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI使用本项目采用python3进行开发,建议使用virtualenv# 下载源码 git clone https://github.com/SimpleB...

2017-11-01 15:56:58

阅读数:9263

评论数:5

提示
确定要删除当前文章?
取消 删除
关闭
关闭