![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
锦楠
这个作者很懒,什么都没留下…
展开
-
dmzj 内容抓取
from urllib.request import urlretrieveimport requestsimport reimport execjsfrom bs4 import BeautifulSoupclass Anime(object): def __init__(self): self.headers = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7).原创 2022-05-09 23:57:07 · 97 阅读 · 0 评论 -
Python urllib 常用函数解析
一、urlopen函数作用:创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据。url:请求的url;data:请求的data,如果设置了这个值,那么将变成post请求;返回值:返回值是一个http.client.HTTPResponse对象,这个对象是一个类文件句柄对象;有read(size)、readline、readlines以及getcode等方法。二、urlretrieve函数作用:可以方便的将网页上的一个文件保存到本地。re...原创 2021-07-01 15:44:53 · 463 阅读 · 0 评论 -
2021年6月知乎指定问题信息爬取 & x-zse-96 2.0版本加密破解分析 爬虫破解反扒思路
一、前言本文仅供研究与学习使用知乎现今的 x-zse 参数的加密方法已升级成了:x-zse-96 2.0版本。来看这篇帖子的应该都知道,这个参数动态唯一,没有就拿不到api数据。查阅了网上有关文章,仅有x-zse-86 2.0版本的解密方法,现今已不适用,加上之前写的文章中有提及该解密方法,所以出一篇帖子,供大家研究与学习。二、破解思路打开浏览器,进入知乎,任意搜索一问题后,打开开发者模式,查看网页 js 文件。步骤如下:进入开发者模式后点击 Sources 源文件;在源文件左侧选中原创 2021-06-24 14:53:40 · 6115 阅读 · 26 评论 -
Python爬取知乎指定问题
Python爬取知乎指定问题回答记得上周写了个帖子,里面有想对知乎指定问题进行爬取,但知乎的反爬措施还是做得比较好的,想通过正常网页解析的手段去拿到数据是实现不了了,因为人家压根就不给你数据,最后呢也是通过解析api端口,实现了问题的该功能。具体实现如下:headers = { 'x-app-za': 'OS=Web', 'x-zse-93': '101_3_2.0', 'x-zse-96': '2.0_a7Y0o6Lq6T2Xnu281RF8Uvr0N原创 2021-06-22 14:04:51 · 861 阅读 · 0 评论 -
抖音美女千千万,想用Python爬爬看
抖音美女千千万,想用Python爬爬看目 标 场 景相信大家平时刷抖音短视频的时候,看到颜值高的小姐姐,都有随手点赞关注的习惯。如果一条条去刷确实很耗时间,如果 Python 能帮忙筛选出颜值高的小姐姐那就省了很多事。本篇文章是借助「百度人脸识别」API,帮我们识别出抖音上颜值高的小姐姐,然后下载到手机相册中。准 备 工 作首先,项目需要对页面元素进行一些精准的操作,需要提前准备一部 Android 设备,激活开发者选项,并在开发者选项中打开 「USB 调试和指针位置」两处设置。为了确保 ad转载 2021-06-21 16:59:20 · 478 阅读 · 0 评论 -
Python 通过知乎热榜api端口抓取数据
Python 通过知乎热榜api端口爬取数据前几天写了份知乎网页版爬取热榜信息的帖子,思来想去,过于繁琐,于是采用抓取知乎热榜api端口的方式进行解析,果不其然,心情舒畅了。代码如下,至于如何抓取api端口,各位大佬可自行百度,也是比较简单。import requestsimport json# 请求头构建headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,原创 2021-06-21 15:04:10 · 1327 阅读 · 0 评论 -
Python实现知乎热点信息爬取
小白也能懂因知乎进主页必须登录后才能够访问信息,且登录界面的验证方式破解难度是较高,经过一番分析,最终选择了使用selenium模拟登录,然后获取cookie的方式。在实现主页信息爬取及热点信息爬取都无问题。在指定问题进行搜索时,返回无内容,应该是知乎的反爬措施变态,查阅了许多博主及各种帖子,都没有较好的解决方法,各位大佬如果有的话,还望对我指指点点一下。该函数也一并放进帖子中,尝试了许多种办法,写得也比较乱,将就着看看吧。上代码,不懂私信可回。1、第三方库import jsonimpor原创 2021-06-18 16:37:06 · 1479 阅读 · 0 评论 -
安居客房源信息爬取
工作之余所写 现今能用小白专属,私信可回。import requestsfrom bs4 import BeautifulSoupfrom loguru import loggerimport time# 构建请求头headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82原创 2021-06-17 17:48:38 · 449 阅读 · 0 评论 -
BeautifulSoup 4 之 CSS 选择器常用方法解析
CSS选择器常用方法解析select方法:有时候使用css选择器的方式可以更加的方便我们找出所需元素。使用css选择器的语法,应该使用select方法。以下列出几种常用的css选择器方法:(1)通过标签名查找:print(soup.select('a'))(2)通过类名查找:通过类名,则应该在类的前面加一个.。比如要查找class=sister的标签。示例代码如下:print(soup.select('.sister'))(3)通过id查找:通过id查找,应该在id的名字前面加一个#号原创 2021-06-01 14:01:35 · 938 阅读 · 0 评论 -
爬虫前奏
爬虫前奏什么是爬虫爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页,并把数据抓取下来,然受使用一定的规则提取有价值的数据。爬虫应用场景搜索引擎(谷歌:全球最大的爬虫,百度:国内最大的爬虫);伯乐在线;惠惠购物助手;数据分析;抢票软件等。为什么用Python写爬虫PHP:PHP是世界上最好的语言,但他天生不是做爬虫的料,而且对多线程、异步支持也并不是很理想,并发处理能力弱。爬虫是一种工具性程序,对速度和效率要求都是较高的。JAVA:生态圈很完善,是Python爬虫最大的竞争对原创 2021-01-31 20:18:29 · 176 阅读 · 0 评论