爬虫
opera92
这个作者很懒,什么都没留下…
展开
-
爬虫-01-什么是爬虫
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 关于Python爬虫,我们需要学习的有: 1. Python基础语法学习(基础知识) 2. HTML页面的内容抓取(数据抓取) 3. HTML页面的数据提取(数据清洗转载 2017-09-16 17:21:45 · 1118 阅读 · 0 评论 -
爬虫-09-scrapy-redis分布式爬虫
正文 回到顶部 9-1 分布式爬虫要点 1.分布式的优点 充分利用多机器的宽带加速爬取充分利用多机的IP加速爬取速度 问:为什么scrapy不支持分布式? 答:在scrapy中scheduler是运行在队列的,而队列是在单机内存中的,服务器上爬虫是无法利用内存的队列做任何处理,所以scrapy不支持分布式。 2.分布式需要解决的问题转载 2017-09-16 20:20:52 · 541 阅读 · 0 评论 -
爬虫-08-selenium & phantomjs
Ⅰ、介绍selenium 1.什么是selenium:selenium百度百科 2.selenium的构架图: 如果要操作浏览器,还需要一个drive。 Ⅱ、安装selenium 1.可以 pip install selenium。 2.找selenium的文档(比较难找)。 如图: 找到Drive,下载对应浏览器的drive,推转载 2017-09-16 20:19:26 · 708 阅读 · 0 评论 -
爬虫-07-反爬虫
阅读目录 7-1 爬虫和反爬的对抗过程以及策略7-2 scrapy架构源码分析7-3 Requests和Response介绍7-4~5 通过downloadmiddleware随机更换user-agent7-6~8 scrapy实现ip代理池7-9 云打码实现验证码识别7-10 cookie禁用、自动限速、自定义spider的settings 正文 回转载 2017-09-16 20:14:53 · 489 阅读 · 0 评论 -
爬虫-06-CrawlSpider及源码分析
通过前几章的2个项目的学习,其实本章的拉钩网项目还是挺容易理解的。 本章主要的还是对CrawlSpider源码的解析,其实我对源码还不是很懂,只是会基本的一些功能而已。 不分小节记录了,直接上知识点,可能比较乱。 1.建立数据表sql语句参考 1 CREATE TABLE `lagou_job` ( 2 `job_id` int(11) NOT NULL DEF转载 2017-09-16 20:12:16 · 371 阅读 · 0 评论 -
爬虫-05-模拟登陆
1.常见的httpcode: 2.怎么找post参数? 先找到登录的页面,打开firebug,输入错误的账号和密码,观察post_url变换,从而确定参数。 3.读取本地的文件,生成cookies。 1 try: 2 import cookielib #py2 3 except: 4 import http.cookiejar as cookieli转载 2017-09-16 20:05:52 · 429 阅读 · 0 评论 -
爬虫-04-scrapy代码编写
4-8~9 编写spider爬取jobbole的所有文章 # -*- coding: utf-8 -*- import re import scrapy import datetime from scrapy.http import Request from urllib import parse '''如果是py2 那就是import urlparse''' from g0xukr.Arti转载 2017-09-16 20:00:22 · 915 阅读 · 0 评论 -
爬虫-03-XPath & CSS
4-1 scrapy安装以及目录结构介绍 安装scrapy可以看我另外一篇博文:Scrapy的安装--------Windows、linux、mac等操作平台,现在是在虚拟环境中安装可能有不同。 1.创建有python3的虚拟环境 mkvirtualenv --python=C:\Users\admin\AppData\Local\Programs\Python\Python35转载 2017-09-16 19:49:39 · 375 阅读 · 0 评论 -
爬虫-02-Http代理(抓包神器)
HTTP代理神器Fiddler Fiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。 工作原理 Fiddler 是以代理web服务器的形式工作的,它使用代理地址:127.0.0.1,端口:8888 Fiddler抓取HTTPS设置 启动Fid转载 2017-09-16 17:47:37 · 1296 阅读 · 0 评论 -
scrapy爬虫入门
我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。 首先先要回答一个问题。 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目明确目标(Items):明确你想要抓取的目标制作爬虫(Spider):制作爬虫开始爬取网页存储内容(Pipeline):设计管道存储爬取内容 好的,基本流转载 2017-11-20 20:55:36 · 390 阅读 · 0 评论