社交数据抓取系统

系统简介 根据关键词对主流舆情网站进行数据抓取. 网站包括:weibo,facebook,twitter,YouTube 用途 当然是对这些主流网站做舆情监控和分析啊!!! 比如你想了解工商银行的服务态度,直接去抓取提到了工商银行的微博语料(文本,图片,视频),然后基于这些语料做情感...

2018-05-21 11:09:14

阅读数:116

评论数:0

微博爬虫,每日百万级数据

前言新浪微博绝对是一个巨大的,实时的语料库!对微博数据爬取和分析,有重大的意义。 比如,现在要调查工商银行的服务态度,就可以抓取微博内容中包含工商银行的微博语料,然后做情感分析,就可以得到用户对银行服务的满意程度。再比如,最近火热的明星鹿晗,可以抓取鹿晗的粉丝信息,分析这些粉丝处于什么年龄段...

2017-11-01 15:58:28

阅读数:6253

评论数:15

构建爬虫代理池

proxypoolproxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI使用本项目采用python3进行开发,建议使用virtualenv# 下载源码 git clone https://github.com/SimpleB...

2017-11-01 15:56:58

阅读数:8376

评论数:4

教务系统爬虫

正方教务系统助手The helper of ZhengFang System 项目地址:https://github.com/SimpleBrightMan/ZhengFang 欢迎fork,star! 详细分析参见:http://blog.csdn.net/nghuyong/article/...

2016-08-14 10:48:22

阅读数:7282

评论数:1

VPS自建爬虫代理服务

前言爬虫原先一直想用免费的代理,但是实践表明,免费的东西,质量就是很差的.恰好手上有好几台VPS,所以想自己搭建一个代理,这个自建的代理肯定就是好用的!具体的方法是采用squid来搭建代理.方法安装squidapt-get update apt-get install squid3安装密码服务网络...

2018-04-09 15:26:49

阅读数:320

评论数:1

千万级微博语料数据整理

数据说明 整理了千万级的微博数据,可以做各种微博语料分析,字段非常丰富 数据最终是一个json文件,每一行都是一个小的json { "_id": { "$oid": "5a6c0686ac7eef81e560e71...

2018-01-27 14:53:55

阅读数:1492

评论数:0

给爬虫加上Shadowsocks代理

起源遇到抓取一个境外的网站,浏览器可以正常访问,但是requests请求却一直被拒绝了!折腾了好久,才发现,关了Shadowsocks浏览器也不能访问!原来,这个站点直接屏蔽了国内的IP所以,得给爬虫加上Shodowsocks的代理,科学爬虫!步骤装个包在requests中采用socks代理需要先...

2018-01-26 18:16:51

阅读数:1031

评论数:0

异步爬虫

异步爬虫以往写爬虫就是单进程单线程,假设要爬取100哥页面,就是一个循环挨个爬。但是要执行下面一条抓取,就需要等待网络IO请求执行完毕,所以效率就不高了。 一开始处理的数据不大,还意识不到,如果要爬取上万个页面,差距马上就能凸显了。 所以爬虫必须要并发执行,异步编程。 在python中并发编...

2017-10-09 23:15:14

阅读数:332

评论数:0

Selenium使用小结

本篇博客记录在使用Selenium过程中遇到的问题。action的使用对于有的超链接,并不能通过获取元素后使用.click()来模拟点击。 需要使用action来进行模拟,完全模拟人的行为,即先移动鼠标到元素上面,在模拟点击! 以点解网页中常见的下一页为例:nextpage = driver....

2016-10-21 16:22:55

阅读数:204

评论数:0

爬虫利器:Selenium+PhantomJS

Selenium是一个可以真实模拟浏览器运作的工具。 需要下载selenium.exe文件和安装selenium包。下面是一个简单的模拟访问百度,并点击进入python官网的例子。# coding=utf-8 from selenium import webdriver from seleniu...

2016-10-20 21:07:20

阅读数:448

评论数:0

python利用cookie登录网站进行访问

详见Python利用Cookie登陆

2016-10-19 20:55:39

阅读数:571

评论数:0

python爬虫正方教务系统

升级版见:http://blog.csdn.net/nghuyong/article/details/522034431.前期准备1.1缘由某天发现正方教务系统突然升级了,以我们学校江南大学为例: 原先有一个BUG访问http://202.195.144.163/jndx/default3.as...

2016-06-09 22:02:02

阅读数:8613

评论数:3

提示
确定要删除当前文章?
取消 删除
关闭
关闭