爬虫
亚呦u椰
这个作者很懒,什么都没留下…
展开
-
第十二节段 -- 爬虫01
文章目录1. 常用工具1.1 fiddler 界面含义2. 爬取数据 -- url库1. 小试牛刀2. 常见到的方法3. Request对象4. Get 请求5. Post 请求6. 响应的编码7. Ajax的请求获取数据8. 请求 SSL证书验证9. 伪装自己9.1 设置请求头9.2 设置代理Proxy10. Cookie10.1 Opener10.2 Cookielib1. 常用工具1.1...原创 2019-07-23 20:07:27 · 555 阅读 · 0 评论 -
第十二节段 -- 爬虫10:【Scarpy 框架04:练习】
从网络上爬取小说《武动乾坤》(www.biqutxt.com)【bqg.py】# -*- coding: utf-8 -*-import scrapyclass BqgSpider(scrapy.Spider): name = 'bqg' allowed_domains = ['biqutxt.com'] start_urls = ['https://www.bi...原创 2019-07-26 16:19:01 · 248 阅读 · 0 评论 -
第十二节段 -- 爬虫09:【Scarpy 框架03:Pipeline;Setting】
1. Pipeline1. Item Pipeline 介绍当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理。每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为,同时也决定此Item是否继续通过pipeline,或者被丢弃而不再进行处理。item pipeline的主要作用:清理html数...原创 2019-07-26 12:42:15 · 394 阅读 · 0 评论 -
第十二节段 -- 爬虫08:【Scarpy 框架02:数据的提取、保存】
1. 数据提取1. Scrapy 提取项目从网页中提取数据,Scrapy 使用基于 XPath 和 CSS 表达式的技术叫做选择器。以下是 XPath 表达式的一些例子:这将选择 HTML 文档中的 <head> 元素中的 <title> 元素/html/head/title这将选择 <title> 元素中的文本/html/head/t...原创 2019-07-26 10:36:50 · 469 阅读 · 0 评论 -
第十二节段 -- 爬虫07:【Scarpy 框架01:简介及安装】
1. Scarpy 介绍整体框架流程图:最简单的单个网页爬取流程是spiders > scheduler > downloader > spiders > item pipeline流程:引擎从调度器中取出一个链接(URL)用于接下来的抓取引擎把URL封装成一个请求(Request)传给下载器下载器把资源下载下来,并封装成应答包(Response...原创 2019-07-25 20:15:29 · 563 阅读 · 1 评论 -
第十二阶段 -- 爬虫06:【selenium】
文章目录1. Selenium2. PhantomJS2.1注意:PhantomJS(python2)2.2 python3使用的浏览器2.1.1 安装Firefox geckodriver2.1.2 安装ChromeDriver3. 使用方式4 页面操作4.1 页面交互4.1.1 获取4.1.2 输入内容4.1.3 模拟点击某个按键4.1.4 清空文本4.1.5 元素拖拽4.1.6 历史记录5 ...原创 2019-07-25 16:45:04 · 133 阅读 · 0 评论 -
第十二阶段 -- 爬虫05:【Tesseract识别验证码】
文章目录1. Tesseract介绍2. Tesseract安装包下载3. 小结4. Tesseract ocr使用5. pytesseract 的使用1. Tesseract介绍tesseract 是一个google支持的开源ocr项目其项目地址:https://github.com/tesseract-ocr/tesseract目前最新的源码可以在这里下载2. Tesseract...原创 2019-07-25 16:41:21 · 211 阅读 · 0 评论 -
第十二节段 -- 爬虫04:【进程;线程;协程】
文章目录1. 线程1. 简介2.主要组成成分2.1. URL 队列和结果队列2.2. 包装类 -- 实现多线程2.3. 函数包装 -- 实现多线程2.4. 进程池3. Queue 模块中的常用方法4. 实例2. 进程1. multiprocessing模块2. Manager类,实现数据共享3. 进程池4. 实例3. 协程 Gevent优先使用多线程,到后来可以使用多进程套用多线程;其中协程最...原创 2019-07-25 11:06:12 · 315 阅读 · 0 评论 -
第十二节段 -- 爬虫03:【数据提取(pyquery;jsonpath)】
文章目录1. pyquery1.1. 介绍 & 安装1.2. 使用方式1. 初始化方式2. 选择节点3. 获取属性4. 获取内容5. 样例2. JosnPath2.1. 简介2.2. Python中的json模块1. json.loads()2. json.dumps()3. json.dump()4. json.load()2.3. JsonPath 库2.4. JsonPath与XPa...原创 2019-07-24 21:23:59 · 852 阅读 · 0 评论 -
第十二阶段 -- 爬虫02:【request;数据提取(正则,Beautiful Soup,xpath)】
文章目录1. URLError2. request 库的用法2.1. 基本介绍2.2. get 请求2.3. post 请求2.4. 自定义请求头部2.5. 设置超时时间2.6. 代理访问2.7. session 自动保存 cookies2.8. ssl 验证2.9. request 获取相应信息3. 数据的提取3.1. 正则表达式 re (逼格最高;速度最快)1. 提取数据2. 正则表达式相关注...原创 2019-08-05 13:28:50 · 1527 阅读 · 0 评论 -
第十二节段 -- 爬虫11:【Scarpy 框架05:CrawlSpider】
1. CrawlSpiders原理图sequenceDiagramstart_urls ->>调度器: 初始化url调度器->>下载器: request下载器->>rules: responserules->>数据提取: responserules->>调度器: 新的url通过下面的命令可以快速创建 CrawlS...原创 2019-07-26 17:04:58 · 235 阅读 · 0 评论