C1. 爬虫知识体系
爬虫知识体系
sevieryang
DM/DW/Statistics/Quant
展开
-
浏览器的缓存机制,转载
https://blog.csdn.net/stpeace/article/details/78145199 转载地址:http://www.cnblogs.com/ziyunfei/archive/2012/09/13/2683177.html 背景 我司的网站是框架结构的,一个页面里有多个iframe.正因为这个原因,每次当我自信满满的把修改过的JS文件提交到SVN上后,没原创 2020-12-19 13:49:10 · 225 阅读 · 1 评论 -
爬虫笔记整理14 - scrapyd分布式爬虫的部署
1. 简介 scrapyd是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本。 2. 特点 1、可以避免爬虫源码被看到。 2、有版本控制。 3、可以远程启动、停止、删除 使用版本: scrapyd:1.2.0 scrapy:1.5.0 3. 安装 (1)pip pip install scrap...原创 2019-01-28 21:09:36 · 708 阅读 · 1 评论 -
爬虫笔记整理13 - scrapy-redis框架
1. 简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署 特征: 分布式爬取 您可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 分布式数据处理 爬取到的scrapy的item数据可以推入到redis队列中,这意味着你可以根据需求启动尽可能多的处理程序来共享i...原创 2019-01-28 20:58:33 · 404 阅读 · 0 评论 -
爬虫笔记整理12 - Scrapy框架的使用总结
介绍 scrapy 是一个开源和协作的框架,用于爬虫。 以快速、简单、可扩展的方式。 项目地址:https://github.com/scrapy/scrapy 官方网站:https://scrapy.org/ 官方文档:https://docs.scrapy.org/en/latest/ 官方教程:https://docs.scrapy.org/en/latest/intro/tutorial....原创 2019-01-28 20:49:08 · 402 阅读 · 0 评论 -
爬虫笔记整理6 - 动态渲染页面爬取总结
7.1 Selenium的使用 一、selenium介绍 一个自动化测试工具。 在爬虫中能做什么? 官网的说法: Selenium automates browsers. That’s it! What you do with that power is entirely up to you. 浏览器的自动化操作,你想干嘛就干嘛…就这么简单! 开源易用,支持多种语言 支持大部分主流的浏览器:fir...原创 2019-01-28 20:35:27 · 499 阅读 · 0 评论 -
爬虫笔记整理4 - 数据存储总结
5.1 文件存储 文件 with open(‘test1.txt’, ‘w’, encoding=‘utf-8’) as f: f.write(‘中文测试’) print(‘写入完成’) with open(‘test1.txt’, encoding=‘utf-8’) as f: data = f.read() print(‘读取到的内容:’, data) json json,只关注4个方法: 1...原创 2019-01-28 20:26:41 · 182 阅读 · 0 评论 -
爬虫笔记整理3 - 解析库的使用总结
4.1 使用XPath xpath 基于 xml 格式的文本解析 xml的3个元素: 节点、属性、文本 1、定位 / : 从根节点开始 // : 任意位置 , 最多的是这个 ./ : 针对子节点, 从当前节点往下搜索 ../ : 从父节点开始查找 2、节点名 用于定位,譬如: div、a、form, 也可以使用 * 通配符来...原创 2019-01-28 20:21:21 · 359 阅读 · 0 评论 -
爬虫笔记整理2 - 基本库的使用总结
3.1 使用urllib to be continued 3.2 使用requests(重点) Requests库学习 一、requests介绍 基于urllib3的一个爬虫库,目前最完善,简单,稳定,好用的库 二、requests用法 1、get、head、options、delete等 r = requests.get('http://httpbin.org/') # head, option...原创 2019-01-28 20:12:58 · 1950 阅读 · 0 评论 -
爬虫笔记整理1 - 基础原理总结
2.0 网络框架 to be continued 2.1 HTTP基本原理 1 简介 超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML©页面的方法。 HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息...原创 2019-01-28 20:03:28 · 783 阅读 · 0 评论