爬虫笔记
文章平均质量分 78
爬虫笔记
Suyuoa
这个作者很懒,什么都没留下…
展开
-
附录3-爬取58二手房信息,爬取4k图片案例,爬取城市名称,爬取站长素材简历模板(xpath使用案例)
运行完毕后会得到下面这些压缩包,随便挑了一个解压发现可以解压,并且里面的word可以打开。两种页面需要写两种xpath表达式,然后用 或 连接。有两种页面,一种是下面这种。爬完了写txt里就行了。原创 2023-09-05 14:04:16 · 130 阅读 · 0 评论 -
附录2-将三国演义按章节存储为不同的txt(bs4)
地址。原创 2023-09-05 14:00:28 · 131 阅读 · 0 评论 -
附录1-爬虫的一些技巧
所以这种情况F12的network就用不了了。这里如果给debugger搞掉,那么它就会给你一顿整,像是什么79,67就是用你的机器做一些无意义的运算。那么我们就可以按照格式翻译errmsg中的内容了,翻译结果没有给出我们任何有用的信息,所以如果遇到这种情况我们需要考虑别的可能。修改User-Agent的时候不要只使用一个,你就爬的时候近network看一下,有时候你用老的User-Agent是不行的。然后输入内容,输入内容后发现多了15条新内容,这些内容不是一开始就有的,而是我们做出了一些动作搞出来的。原创 2023-09-05 13:52:12 · 1375 阅读 · 0 评论 -
10.selenium的基本使用
selenium是一个关于爬虫功能python的库,它的整体逻辑与之前的请求爬虫思路不同。selenium是模拟出一个浏览器,你通过代码操作这个浏览器从而获取一些信息,比如执行click()就相当于点击了浏览器中的某个元素,相当于是针对浏览器的鼠标键盘宏。原创 2024-02-27 17:19:42 · 1049 阅读 · 0 评论 -
9.异步爬虫
异步爬虫可以理解为非只单线程爬虫我们下面做个例子,之前我们通过单线程爬取过梨视频在保存视频的时候会慢一些,为了提升效率,我们使用异步爬虫爬取。原创 2024-01-25 17:08:45 · 2445 阅读 · 0 评论 -
8.代理请求
有时爬着爬着人家把我们的IP给封了,这个时候我们可以使用代理IP再次进行请求不用代理的时候就是A直接请求B,B给A响应使用代理是A去请求C,C携带你的参数请求B。之后B给C响应,然后再由C把B的响应给A这样A和B就没有直接关系,B禁用A的IP,但没有禁用C的IP。如果C的IP也被禁用了,那就换一个代理D和验证码一样,代理也有第三方的公司做,比如 快代理。原创 2024-01-18 13:48:22 · 421 阅读 · 0 评论 -
7.图像文字型验证码与cookie操作
有很多第三方的公司可以解决图像验证码问题,但是人家都需要费用,比如 云码超级鹰如果不需要搞定太专业的验证码,我们可以自己搞定一下比如我们后面都是通过这个服务来识别验证码验证码可能与很多的因素相关,比如请求验证码的时候发送查询字符串或是与cookie、session相关或是与时间戳相关,都有可能我们下面做个古诗文网的例子古诗文网。原创 2024-01-18 13:44:10 · 894 阅读 · 0 评论 -
6.xpath的基本使用
xpath是python做数据解析的库。原创 2023-09-05 13:46:29 · 89 阅读 · 0 评论 -
5.bs4的基本使用
与find()的用法相同。原创 2023-09-05 13:39:06 · 607 阅读 · 0 评论 -
4.正则提取html中的img标签的src内容
我们以百度贴吧的1吧举例。原创 2023-09-05 11:22:57 · 1027 阅读 · 0 评论 -
3.通过局部刷新爬取数据案例
想获取更多可以修改一下参数,比如我想获取88条数据。进去后随便点一个,我们以点击剧情为例。在上拉触底的时候会加载新的数据。输入内容后自动发起新的请求。点进去之后url发生变动了。我们刚刚获取的是20条数据。选择城市后会出发数据更新。原创 2023-09-05 11:16:50 · 60 阅读 · 0 评论 -
2.requests库基本用法
requests是请求用的,在发起请求中requests会默认帮我们解决一些问题,比如跨域下面做几个例子,服务选用flask,服务的结构就是这样的,根据不同的请求会换不同的视图与路由。原创 2023-02-22 11:27:00 · 507 阅读 · 0 评论 -
1.初识爬虫
爬虫是批量模拟网络请求的程序,想百度谷歌这种搜索类网站本质上就是爬虫使用爬虫的时候不应该对别人的网站有严重的影响,比如你爬的频率太高了,让人家的网站崩溃了。不应该爬取网页上显示不到的内容,比如有一个直播的网站,人家显示的是热度值而不是具体人数,热度值是根据具体人数计算出来的,但是具体人数人家没展示在网页上,这个时候你不应该爬具体人数。原创 2023-09-05 10:59:58 · 2723 阅读 · 0 评论