学习笔记——爬虫

最新推荐文章于 2021-11-17 12:07:07 发布

最新推荐文章于 2021-11-17 12:07:07 发布 · 6.5k 阅读

120 篇文章

订阅专栏

39 篇文章

订阅专栏

本文档为Python爬虫的学习笔记，覆盖了从基础知识到高级应用的多个方面，包括使用Urllib、Requests等工具抓取网页内容，解析HTML，下载图片、音频等资源，并介绍了如何利用Selenium、Scrapy等框架实现动态网站的爬取及分布式爬虫的设计。

个人学习笔记，几乎都是在别人代码的基础上自己稍作修改，方便二次利用，介意的话请跳过这个系列文章，谢谢

参考资料《Python爬虫开发与项目实战》《精通Scrapy网络爬虫》《Python3网络爬虫开发实战》

	Urllib	Requests
文本	Urllib+BeautifulSoup 豆瓣书评	Requests+Xpath 豆瓣书评
图片	Urllib+BeautifulSoup 豆瓣图书封面	Requests+Xpath 豆瓣图书封面
音频	Urllib+BeautifulSoup 喜马拉雅FM	Requests+Xpath 喜马拉雅FM

Web端协议分析
终端协议分析

	链接	相关描述
股票	https://blog.csdn.net/weixin_39777626/article/details/79319705	Tushare接口
花瓣网	https://blog.csdn.net/weixin_39777626/article/details/79341541	图片、正则表达式
微博	https://blog.csdn.net/weixin_39777626/article/details/79361110	视频链接
微博	https://blog.csdn.net/weixin_39777626/article/details/80212216	微博&评论（文本内容）
淘宝	https://blog.csdn.net/weixin_39777626/article/details/79434636	评论
淘宝	https://blog.csdn.net/weixin_39777626/article/details/79361091	商品信息
智联招聘	https://blog.csdn.net/weixin_39777626/article/details/80288064	招聘信息
中国邮政	https://blog.csdn.net/weixin_39777626/article/details/89376623	网点信息
招商银行	https://blog.csdn.net/weixin_39777626/article/details/101995308	商户编码