爬虫
别追我我有止咳糖浆
这个作者很懒,什么都没留下…
展开
-
爬取uputoo视频
爬取uputoo视频 import json import urllib.request import os,time from math import ceil from lxml import etree import re import random def get_heders(): ua_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64;...原创 2018-11-12 08:30:16 · 276 阅读 · 0 评论 -
分布式scrapy+redis 爬取房天下租房信息
利用scrapy框架结合redis分布式爬虫 #创建项目 scrapy startproject homepro #根据提示进入指定目录创建爬虫 scrapy genspider home example.com #spider爬虫 scrapy genspider -t crawl home example #crawlspider爬虫 其他不说直接行代码 items.py代码...原创 2018-11-22 11:19:19 · 417 阅读 · 0 评论 -
模拟浏览器登录淘宝
模拟浏览器登录淘宝,使用传统的Selium以及phantomjs拖动滑块验证目前已经被淘宝识别,所以只能携带cookie登录,常用的方式就是用抓包工具抓取请求没然后添加在headers里,这里介绍的是手工登录保存cookie到本地,还是利用浏览器模拟,不多介绍,这里只是middlewares部分. class SeleiumMiddleware(object): def __init__(...原创 2018-11-20 08:47:05 · 2539 阅读 · 0 评论 -
scrapy模拟浏览器翻页爬取智联
智联爬取中,页码的数字和url是不匹配的,因此盲目的拼接url会造成错误,因此可以采用模拟浏览器爬取网页 要模拟浏览器需要知道scrapy流程,简图如下: 这里只是简单的写一些伪码,设计的数据清洗部分请看scrapy数据清洗 middleswares.py from scrapy.http import HtmlResponse from selenium import webdriver fr...原创 2018-11-29 17:17:28 · 2424 阅读 · 3 评论 -
scrapy数据清洗:
scrapy数据清洗: 在爬取数据过程中,有些数据不是我们需要的,或者有的数据格式不符合我们的要求,需要进行处理然后在进行保存,传统的方法就是在items中定义我们需要的字段,例如: class ShetuItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() ...原创 2018-11-28 16:34:39 · 2750 阅读 · 0 评论 -
scrapy框架流程
scrapy框架是基于python的爬虫框架,大致流程如下: scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量代码, 就能够快速的抓取到数据内容。 Scrapy 使用了 Twisted’twɪstɪd异步网络框 架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口, 可以灵活的完成各种需求。 scrapy 框架的工作流...原创 2018-11-28 17:09:57 · 530 阅读 · 0 评论