爬虫
文章平均质量分 54
scgg
心之所向,至死方休
展开
-
爬虫:关于网页编码
导语:当我们用爬虫成功获取网页源码后,可能打印出来却是乱码的,因为使用requests 模块时,程序会根据HTTP头自动判断网页编码,但这样做就显得不太准确,所以还需要我们手动修改。手动修改网页编码显得繁琐且笨拙,我们引入一个新的模块cchardet来帮助我们完成这一系列的工作。安装pip install cchardet因为是用C语言编写的缘故,cchardet 比chardet 更高效使用该模块里面只有一个方法,那就是detect ,下面给出官方的使用案例:测试原创 2021-01-31 14:22:45 · 599 阅读 · 0 评论 -
单线程、多线程、单线程+协程下载图片速度的比较
导语:学习爬虫的过程中为了提高爬取的速度之前一直使用多线程,近日研究了一下协程,协程也被认为是轻量级的线程,使用协程在I/O密集型运算中能够更好的缩短运行时间,因为协程是真正的实现了异步操作,并且对比多线程而言,协程没有数量限制,而且协程本质上是单线程处理多任务时进行了超级大循环(即遇到阻塞就切换下一个任务,遍历所有任务后再回到第一个任务),所以协程相对于多线程来说,没有生成以及销毁线程的开销。下面,以爬取校花网的图片为例,我们测试一下协程和多线程的速度。1. 先爬取20页图片(320张)的地址校原创 2021-01-29 20:39:19 · 674 阅读 · 0 评论