爬虫学习之旅
文章平均质量分 79
午夜零时
这个作者很懒,什么都没留下…
展开
-
荔枝FM语音批量下载
支持荔枝FM的免费资源下载,尊重音频版权,不要用于商业传播。被网上的下载器坑怕了,想收我的钱,没门,我自己写一个。原创 2023-12-05 15:29:52 · 459 阅读 · 2 评论 -
爬虫入门(九)爬虫总结----看懂爬虫要学什么
学习了用python写网络爬虫这本书,总结一下爬虫的基本结构和一些工具原创 2021-07-25 16:25:36 · 392 阅读 · 0 评论 -
爬虫入门(七)添加缓存
当爬取的内容过多时,爬取过程可能会因为错误或者异常被中断,缓存帮助我们不用重新爬取已经爬取过的页面。1.构建支持缓存的下载类其中下载函数我们已经用urllib库和requests库分别构建过了。现在我们在requests构建的下载函数的基础上封装成支持缓存的类先给出代码:'''缓存下载类'''from random import choiceimport requestsclass downloader: def __init__(self, delay=5, user原创 2021-07-19 22:37:39 · 607 阅读 · 0 评论 -
爬虫入门(六)保存爬取内容
将抓取的结果保存到电子表格中,使用的是python的CSV库所谓的CSV(逗号分隔值)格式是电子表格和数据库最常用的导入和导出格式。尝试使用CSV格式进行标准化描述之前已经使用了很多年。该csv模块reader和writer对象读取和写入序列。程序员还可以使用DictReader和DictWriter类以字典形式读取和写入数据。简单的使用方式一、读取reader(iterable, dialect=‘excel’, *args, **kwargs)该方法返回一个reader对象,该.原创 2021-07-17 17:09:04 · 541 阅读 · 0 评论 -
爬虫入门(五)抓取网页数据
前面已经实现了获取整个网页HTML的功能,并且在获取HTML的基础上,加上一些诸如:下载出错自动重试、用户代理、服务器代理、爬取深度、避免重爬、id遍历、链接遍历等进阶功能。而且在处理过程中也初步使用了正则表达式。但是前面我们获取的HTML中的数据很多,其中大部分是我们不需要的。因此在本节中,我们要介绍对比三种抓取数据的方式,也可以叫选择器,并给出他们的性能对比,以供选择。1.分析网页在抓取一个网页之前的具体内容之前,我们首先应该分析一下网页的结构。网页的构成是一种标签化的结构语言编写的。这些标原创 2021-07-17 17:04:16 · 18544 阅读 · 0 评论 -
爬虫入门(四)爬虫高阶技巧
1.解析robots.txt文件有一些站点它在 robots.txt 文件中设定了禁止浏览该站点的代理用户。既然目标站点有这样的规矩,我们就要遵循它。使用urllib的robotparser模块来解析robots.txt文件,以避免下载禁止爬取的url 然后通过can_fetch()函数来判断指定的用户代理是否符合解析出的robots.txt规则。urllib包含四大模块:request(请求)、error(异常处理)、parse(url解析,拼接,合并,编码)、robotparser(解析ro原创 2021-07-15 17:07:27 · 1008 阅读 · 0 评论 -
爬虫入门(三)进阶技巧之ID遍历、追踪链接
1.使用id遍历(1)原理使用id遍历网页是常见的做法,由于大多数网站存储的数据太多,不可能为每一个网页都起名字,便用id做标记使得数据库方便识别,这也使得按id遍历网页成为可能。在示例网站:http://example.python-scraping.com我们可以用两种方式访问同一网页:http://example.python-scraping.com/view/Afghanistan-1http://example.python-scraping.com/view/1所以..原创 2021-07-13 18:46:29 · 1828 阅读 · 1 评论 -
爬虫入门(一)下载网页urllib库的使用及进阶
获取网页的基本用法,进阶技巧:异常捕获、网页错误码处理,重试下载,设置代理目录1.urllib库2.获取网页内容的基本用法3.进阶用法:能够捕获异常。4.进阶用法:重试下载5.进阶用法:设置代理6.进阶用法:封装函数1.urllib库Python自带的标准库,无需安装,可以直接使用。其分为四个大的模块,分别是:a、urllib.request 请求模块b、urllib.error异常处理模块c、urllib.parse解析模块d、urllib.rob.原创 2021-07-11 16:24:23 · 1578 阅读 · 0 评论 -
爬虫入门(二)初试正则
k原创 2021-07-11 19:07:46 · 397 阅读 · 0 评论