爬虫
文章平均质量分 82
Python 爬虫的入门课程
oifengo
爬梯之路
展开
-
Python爬虫常用模块
Python标准库——urllib模块 功能:打开URL和http协议之类 python 3.x中urllib库和urilib2库合并成了urllib库。 其中urllib2.urlopen()变成了urllib.request.urlopen() urllib2.Request()变成了urllib.request.Request() urllib请求返回网页 urllib...原创 2018-07-01 10:40:15 · 6141 阅读 · 0 评论 -
Scrapy从入门到精通(1)--入门项目爬取图书网站
Scrapy简介 Scrapy是一个用Python语言(基于Twisted框架)编写的开源网络爬虫框架. Scrapy安装 linux: conda install scrapy win:略 Mac:没钱用 测试 import scarpy print(scrapy.version_info) (1, 5, 0) 编写第一个Scrapy 结构目录: 练习网站 ...原创 2018-07-01 19:31:58 · 2990 阅读 · 4 评论 -
Scrapy从入门到精通(2)--使用Selector提取数据
使用Selector提取数据 从页面中提取数据是SPider最重要的的工作之一 Selete对象 从页面中提取数据的核心技术是HTTP文本解析,常用的文本解析模块: BeautifulSoup API简单 但解析速度慢 lxml 由C语言编写的xml解析库(libxm2),解析速度快 但是API复杂 Scrapy 综合以上两者优势实现了Selector类,它是由lxml库构建的,并简化...原创 2018-07-01 20:22:14 · 1246 阅读 · 0 评论 -
简单的Python爬虫
因为Python无需编译直接执行,所以可以成为脚本 脚本:简单的Python程序 程序:大一点的、复杂的Python脚本 爬虫:一种自动抓取互联网信息的程序 爬虫的价值 基于爬取的数据进行分析,提取数据分析服务 爬虫网络架构 爬虫调度端:启动 运行 监控 1. URL管理器 2. 网页下载器 3. 网页解析器 运行流程 URL管理器 ...原创 2018-06-27 18:20:13 · 374 阅读 · 0 评论 -
Scrapy从入门到精通(3)--使用Item封装数据
使用Item封装数据 前两篇博客介绍了从页面中提取数据的方法,现在用item封装爬取到的数据 Item和Field Scrapy提供了Item和Field类,可以用他们自定义数据类,封装爬取到的数据 Item :自定义数据类(BookItem)的基类 Field:描述自定义数据类包含那些字段(name price) 自定义一个数据类,只需要继承Item,并创建一系列Field对象...原创 2018-07-04 09:53:03 · 751 阅读 · 0 评论 -
Scrapy从入门到精通(6)--模拟登录
有些网站需要登录后才能爬取到有用的信息,Scrapy先模拟登录,再进行信息爬取。 登录实质 理解登录的实质,跟踪一次登录操作 http://example.webscraping.com/ 页面的表单对应的HTML的 《form》,log in会根据form元素的内容发送一个http请求给服务器 method决定请求方法 post action 请求的url (#为当前页面) en...原创 2018-07-17 11:42:42 · 614 阅读 · 0 评论 -
Scrapy从入门到精通(4)--项目实战爬取图书网站信息
项目实战 url = http://books.toscrape.com 页面分析 scrapy shell U R L> scrapy shell URL>可以使用户在交互式命令行下操作一个Scrapy,通常用来进行前期爬取实验,提高开发效率 scrapy shell http://books.toscrape.com/catalogue/a-light-in-t...原创 2018-07-05 13:54:46 · 1157 阅读 · 0 评论 -
Scrapy从入门到精通(5)--下载文件和图片
Scrapy从入门到精通系列前四篇已经讲了从网页中获取信息的方法,除此之外,爬虫也可以从网页中下载图片、视频、word、pdf、压缩包等 FilesPipeline和ImagePipeline Scarpy框架内部提供了这两个Item Pipeline专门用来下载文件和图片 可以将它们视为特殊下载器,给他们url,就会自动下载到本地,并将下载结果存入item的另一个特殊字段,以便用户在导...原创 2018-07-15 15:14:04 · 3352 阅读 · 1 评论