爬虫修炼和实战
本专栏为自己爬虫学习和实战的总结和记录,仅供参考学习用
dataformydream
这个作者很懒,什么都没留下…
展开
-
【爬虫修炼和实战】五、简单实现实时维护的代理池——爬取筛选和更新免费IP池(工具篇)
本篇记录一下IPSearch的改进版本以及实时代理池的实现思路。项目已上传到GitHub:https://github.com/dataformydream/IPsearch本文为IPSearch最新版本:IPSearch.py,用来参考实现思路和学习总结。申明:本文和相关代码只做学习用途,请合理合法使用。目录一、实现功能二、思路和实现1、大致思路2、实现三、使用方法四、简单示例一、实现功能所有功能列出如下:1、将所有功能封装在IPSearch类中,...原创 2020-06-06 15:49:56 · 15074 阅读 · 0 评论 -
【爬虫修炼和实战】四、bs4/pq/xpath/多线程/多进程——爬取喜马拉雅全站音频数据(进阶篇)
第三篇记录下学习的一些进阶技能,对喜马拉雅音频爬虫代码做一些改进和优化,主要有以下三点:1、抓取方式(网站解析):基础篇大量使用了re正则,各类别和音频之间的所属关系是通过字符串分割来实现的(split函数),本篇尝试用beautifulsoup、xpath和pyquery来遍历和解析网页,三者功能类似,速度比正则要慢(大概,bs4最慢是确定的,不过对小规模爬虫来说也感觉不出来),不过获取信息较为方便(大概,看使用熟练度,那个好用用哪个)。网页结构分析不再赘述,可以参考前一篇文章:爬取喜马拉雅全站音原创 2020-05-21 19:07:22 · 519 阅读 · 0 评论 -
【爬虫修炼和实战】三、免费IP/数据收集——爬取筛选和更新免费IP池(工具篇)
第五篇记录一下如何解决学习爬虫经常产生的代理IP的需求问题,吾时常苦苦搜寻,一个个复制粘贴测试是否可用甚是辛苦,突发奇想,尝试一劳多得,遂自己造个轮子,调用即可,岂不美哉,作为日常学习使用,商业用请另寻他法。暂只知道以下能获取到代理IP的途径:1、付费:特点是高匿,稳定(相对),调用接口省事,适合大规模爬虫,付费,个人学习一般用不到,若想深入了解可以搜索知乎话题【说说代理IP哪家好?】2、免费:代理提供商收集的免费代理,自行搜索即可,当然大多不能用,需要自己筛选。本篇暂选择了5个免费代理网站原创 2020-05-21 10:08:45 · 876 阅读 · 0 评论 -
【爬虫修炼和实战】一、知识储备和参考
第一篇暂记录一些已掌握和要用到的参考资料,备案参考,不定时更新,排列顺序难度大致由浅入深。目录python基础书籍《Python编程:从入门到实践》 《流畅的Python》 《Python 3网络爬虫开发实战》 《Linux 命令行大全》视频课程用Python玩转数据(MOOC) python6小时完全入门(b站) Python3 简明教程(在线编程环境) Linux 基础入门(在线编程环境) Python网络爬虫与信息提取(MOOC) 52讲轻松搞定网络爬虫(拉勾网,原创 2020-05-17 09:42:16 · 220 阅读 · 0 评论 -
【爬虫修炼和实战】二、从requests开始——爬取喜马拉雅全站音频数据(基础篇)
第二篇为利用爬虫基本的requests库和正则表达式爬取喜马拉雅全站数据。申明:本文仅做学习用。多图警告。目录一、常用函数和库二、网站结构分析首页https://www.ximalaya.com/全部分类https://www.ximalaya.com/category/基本分类https://www.ximalaya.com/youshengshu/reci231/专辑页面https://www.ximalaya.com/yinyue/24041806/音频...原创 2020-05-16 16:21:32 · 2432 阅读 · 0 评论