爬虫
文章平均质量分 90
学无止境丶
https://github.com/fwdhz998。深度学习的副产品就是广度学习。
展开
-
抓取代理IP并多线程验证
http://www.cnblogs.com/sjzh/p/5990152.html转载 2017-02-15 11:27:59 · 1573 阅读 · 0 评论 -
微博粉丝-爬虫-记录
1.新浪微博wap站,结构简单,速度应该会比较快,而且反扒没那么强,缺点是信息量会稍微缺少一些2.主要使用 scrapy 爬虫框架。下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、关注和粉丝进行爬取。将新爬下来的关注和粉丝ID加入到待爬队列(先去重)。原创 2017-02-13 10:18:34 · 2032 阅读 · 0 评论 -
Scrapy学习笔记
创建一个Scrapy项目定义提取的Item编写爬取网站的 spider 并提取 Item编写 Item Pipeline 来存储提取到的Item(即数据)1.根据需要从dmoz.org获取到的数据对item进行建模2.刚才发生了什么?Scrapy为Spider的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方原创 2017-02-13 08:48:36 · 347 阅读 · 0 评论 -
python爬虫:爬取豆瓣读书某个tag下的书籍并存入excel
#-*- coding: UTF-8 -*-import sysimport timeimport urllibimport urllib2import requests#import numpy as npfrom bs4 import BeautifulSoupfrom openpyxl import Workbookreload(sys)sys.setdefaulten原创 2016-11-01 16:40:42 · 1750 阅读 · 0 评论 -
链接网房源信息redis分布式爬虫及数据可视化-武汉市
项目描述: 使用lxml+MongoDB+echart进行链家网房产信息数据的爬取、存储及可视化,分布式爬虫采用redis主-从结构,主机负责爬取一级URL并生成二级URL,从机负责二级URL数据爬取、存储及相关信息反馈给主机,主从通信采用redis的set实现。 反爬策略:从免费IP代理池中选择代理IP,不断换取User-Agent,并且控制随机访站时间。主机采用双线程,分别原创 2017-03-20 09:48:33 · 1968 阅读 · 4 评论 -
新浪微博粉丝爬虫-wap站只能爬取20页-
由上图可见:微博已经视粉丝分布为商业机密,故爬取难度越来越大。无论web上爬,还是手机上爬,均受限。两种方式:手动爬+微博API爬。本文展示手动爬,以李易峰的粉丝分布为基础,只能爬取20页,源码如下# encoding=utf-8import randomimport jsonimport base64import requestsfrom lxml import etree原创 2017-02-14 15:40:49 · 6571 阅读 · 2 评论