最近准备了解一下python爬虫这方面,找到几篇适合小白看的博客,就把链接放下面了,也方便以后查看。
1.从网页上抓取内容大致分3步:
(1)模拟浏览器访问,获取html源代码
(2)通过匹配,获取指定标签中的内容
(3)将获取到的内容写到文件中
2.关于库的使用
(1)requests中文教程:https://2.python-requests.org//zh_CN/latest/user/quickstart.html
(2)beautifulsoup中文教程:https://beautifulsoup.readthedocs.io/zh_CN/latest/
3.参考博客:
1.python 网络爬虫入门(一)———第一个python爬虫实例
https://blog.csdn.net/Bo_wen_/article/details/50868339
2.Python3网络爬虫快速入门实战解析
https://blog.csdn.net/c406495762/article/details/78123502
3.python3爬虫系列教学、案例、代码实战,看这几篇就够了
https://blog.csdn.net/weixin_41779359/article/details/86374812
4.乱码问题
https://blog.csdn.net/qq_33440662/article/details/82787301