![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Aaronpengwp
生活需要多思考
展开
-
urllib的简单使用与HTTP 错误的列表
当download函数遇到5xx 错误码时 , 将会递归 调用 函数 自 身进行 重试 。 此 外 , 该函数 还增加了一个参 数 , 用于设定 重试下载的次 数 ,其 默认值 为 两次。import urllib.requestfrom urllib import error"""一.URLError和HTTPError混合使用 最后值得注意的一点是,如果想用HTTPEr...原创 2018-11-21 17:49:36 · 258 阅读 · 0 评论 -
爬虫基础之网络请求
目录 http协议什么是http和https协议在浏览器中发送一个http请求的过程url详解常用的请求方法请求头常见参数常见响应状态码urllib库urlopen函数urlretrieve函数urlencode函数parse_qs函数urlparse和urlsplitrequest.Request类ProxyHandler处理器(代...原创 2019-02-17 16:00:43 · 564 阅读 · 0 评论 -
爬虫基础之数据解释
目录XPath语法和lxml模块什么是XPath?XPath开发工具XPath语法选取节点:谓语:通配符选取多个路径:运算符:lxml库基本使用:从文件中读取html代码:在lxml中使用XPath语法:实例BeautifulSoup4库安装和文档几大解析工具对比简单使用四个常用的对象1. Tag2. Naviga...原创 2019-03-16 23:46:29 · 492 阅读 · 0 评论 -
爬虫数据存储
目录json文件处理什么是jsonJSON支持数据格式字典和列表转JSON将json数据直接dump到文件中将一个json字符串load成Python对象:直接从文件中读取json:总结csv文件处理读取csv文件写入数据到csv文件MySQL数据库操作安装mysql:navicat:安装驱动程序:数据库连接:插入数据:...原创 2019-04-28 16:22:41 · 439 阅读 · 0 评论 -
爬虫进阶(多线程、队列、ajax、tesseract)
目录多线程爬虫多线程介绍:threading模块介绍:查看线程数:查看当前线程的名字:继承自threading.Thread类:多线程共享全局变量的问题:锁机制:Lock版本生产者和消费者模式:Condition版的生产者与消费者模式:Queue线程安全队列:使用生产者与消费者模式多线程下载表情包GIL全局解释器锁:多线程下载百思不得姐...原创 2019-05-05 12:27:26 · 393 阅读 · 0 评论 -
爬虫基础之Scrapy框架架构
目录Scrapy框架Scrapy框架介绍:Scrapy架构图(Scrapy 使用了 Twisted异步网络库来处理网络通讯):Scrapy框架模块功能:Scrapy运行流程大概如下:安装和文档:快速入门:创建项目:目录结构介绍:spiders包:以后所有的爬虫,都是存放到这个里面。使用Scrapy框架爬取糗事百科段子项目糗事百科Scra...原创 2019-06-02 15:32:43 · 707 阅读 · 0 评论