python爬虫学习之路
以实战为线索,用实际代码记录学习爬虫之路
大鸣王潮2024
有书读了
展开
-
爬虫7:多线程与协程
我们可以使用线程池:一次性开辟一些线程,我们用户直接给线程池子提交任务,线程任务的调度交给线程池来完成。进程是资源单位 ,每个进程至少要有一个线程。因为91被封了这里用另一个视频网站代替吧。创建线程比创建进程花销小,故使用前者。多线程爬取北京新发地。原创 2024-09-06 17:55:29 · 359 阅读 · 0 评论 -
爬虫6:爬取网易云音乐评论
过程比较艰辛,具体看代码吧。原创 2024-09-06 17:46:56 · 229 阅读 · 0 评论 -
爬虫5:xpath
某些网站的反爬手段是检查你从哪个页面进来的,这时就要加入referer信息。对于需要登录的网站来说,cookie是个很好的选择。还有可能进行封ip操作,这时我们可以使用代理。一些常用方法,敲敲就明白了。爬取猪八戒招聘网站信息。原创 2024-09-06 17:41:57 · 242 阅读 · 0 评论 -
爬虫4:bs4
那么对于bs4来说公式就是BeautifulSoup(“html源码”, “html.parser”)贪婪搜索第一次匹配成功就返回,.*则返回所有成功匹配的。对于re来说,公式就是。原创 2024-09-06 17:35:26 · 198 阅读 · 0 评论 -
爬虫3:re正则表达式获取数据
在上一章中,我们基本上掌握了抓取整个网页的基本技能.但是呢,大多数情况下,我们并不需要整个网页的内容,只是 需要那么一小部分,怎么办呢?这就涉及到了数据提取的问题.这三种方式可以混合进行使用,完全以结果做导向,只要能拿到你想要的数据.用什么方案并不重要,当你掌握了这些之 后.再考虑性能的问题.本课程中,提供三种解析方式: 1.re解析 2.bs4解析 3.xpath解析。电影天堂,代码需要小小修改,有些问题。原创 2024-09-06 17:28:14 · 180 阅读 · 0 评论 -
爬虫2:web请求与http
2.客户端渲染 :请求网页时候服务器只返回html骨架,客户端再次请求数据时候再返回数据,进行数据展示(在页面源代码中看不到数据)1.服务器渲染 :在服务器那边直接把数据和html整合在一起,统一返回给浏览器。响应体:服务器返回的真正客户端要用的内容(HTML,json)等。状态行:协议,状态码 200,404,500,419被发现了,请求航:请求方式get/post, 请求url地址,协议。响应头:放一些客户端要使用的一些附加信息。请求头:放一些服务器要使用的附加信息。请求体:一般放一些请求参数。原创 2024-09-06 17:23:22 · 212 阅读 · 0 评论 -
爬虫1:urlopen
注意网页源码的编码格式!原创 2024-09-06 17:20:11 · 428 阅读 · 0 评论