爬虫
文章平均质量分 79
HerrFu
Python 数据分析讲师,专注于 Python 相关领域的教与学,快来学习吧!
展开
-
可狱可囚的爬虫系列课程 12:在网站中寻找 API 接口(补充)(王者荣耀英雄信息抓取)
我们前面讲过了怎么在网站中找接口,如何在开发者工具中判断是不是接口,但是凡事都有例外,今天我还要再针对此问题做一次详细描述。本次就以王者荣耀官网为例,带大家进行学习。原创 2024-01-16 01:39:52 · 747 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 11:Requests中的SSL
我们在文章中遗留了一个问题,就是为什么要添加 verify=True 这个参数,今天我给大家单独解释一下,这还要从网站的 SSL 证书说起。原创 2024-01-11 22:01:41 · 1090 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 10:在网站中寻找 API 接口(今日头条热榜爬取)
上一篇文章我们讲述了爬虫中一个比较重要的知识点,如何从 API 接口中获取数据,本篇文章我们继续讲述,如何在网站中寻找 API 接口,我们以“今日头条”网站 https://www.toutiao.com/ 为例。如上图所示,如果要获取页面新闻数据,可能大部分同学的想法就是直接 Requests 结合 BeautifulSoup4 库进行数据的爬取,但是我们不妨先来找找看有没有 API 接口能够让我们更快速的得到数据。原创 2024-01-04 23:45:31 · 2047 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 09:通过 API 接口抓取数据
API 接口是负责传递数据的,在现今互联网已存在的网站中,除了极个别非常古老的网站,大部分的网站都会采用 API 接口进行数据的传输。那么为什么 API 接口这么受欢迎呢,那当然是其带来了很多的好处,最直观的便是极大地节省了开发的成本。原创 2024-01-04 10:38:20 · 1717 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 08:新闻数据爬取实战
本篇文章中我带大家针对前面所学 Requests 和 BeautifulSoup4 进行一个实操检验。,爬取内容如图所示,我们要爬取每一条新闻的新闻类型、新闻标题、跳转链接、发布时间。原创 2024-01-03 11:14:24 · 1818 阅读 · 3 评论 -
可狱可囚的爬虫系列课程 07:BeautifulSoup4(bs4)库的使用
BeautifulSoup4 属于 BeautifulSoup 系列的第四代版本,BeautifulSoup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库,这个库能够实现树文档的导航、查找,从而帮助我们提取到网页中所需要的数据。。如果忘记了在哪里安装,请回看 Requests 模块第一篇文章。安装好以后,我们围绕数据提取这个话题对 BeautifulSoup4 进行剖析。<body>"""# 问题一:使用标签选择器获取源代码中所有的 p 标签。原创 2023-12-20 06:57:51 · 1620 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 06:Requests的timeout参数
各位同学在使用爬虫时,有没有遇到过请求发出去很久却迟迟得不到响应结果的情况,相信很多同学都有过相似的经历,今天我们借助本文来给大家说一说应该如何解决。原创 2023-12-05 17:32:41 · 962 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 05:Requests爬虫基础伪装
HTTP 请求头,简称请求头,是 HTTP 协议传输过程中规定的一系列键值对,它用来描述客户端的环境信息、请求偏好等。请求头是 HTTP 请求的一部分,包含了操作系统、浏览器类型、请求方法(GET、POST 等)、语言等信息。服务器根据这些信息来处理请求并生成适当的响应。原创 2023-11-30 14:29:47 · 2013 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 04:Requests常见乱码问题
很明显,我们这里遇到的问题是符号码,产生原因就是以 ISO8859-1 方式读取了 UTF-8 编码的中文,我们将其解析回来即可。,经过对原始数据的修改,乱码问题就能够解决掉。原创 2023-11-13 17:33:49 · 651 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 03:Requests模块的简单使用
Requests 是一个简单的 HTTP 库,允许使用者发送 HTTP 请求。说白了我们能够通过 Requests 模块向指定的 URL 所在服务器发送请求,从而拿到服务器返回的响应结果,进而解析出我们需要的数据。原创 2023-11-13 17:31:28 · 1247 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 02:爬虫必会概念
在开始学习爬虫之前,我们有必要详细了解一些概念的基本原理,这对于我们学习爬虫有很大的帮助!原创 2023-11-13 17:26:24 · 703 阅读 · 0 评论 -
可狱可囚的爬虫系列课程 01:爬虫了解
简言之,爬虫就是一种可以帮助我们把网站上的信息快速提取并保存下来的一种工具。通俗的解释就是,我们可以把互联网比作一张大网,而爬虫便是在网上爬行的蜘蛛(Spider)。把一个个的网站看成蜘蛛网上的节点,爬虫爬到某个节点就相当于访问了某个网站,就能够把网站上的信息提取出来。我们可以把节点间的连线比作网站与网站之间的互通关系,这样蜘蛛通过一个节点后,可以顺着连线继续爬行到下一个节点,即爬虫在互联网中是可以随意爬行的,这样整个互联网中的数据便可以被爬虫全部爬取。原创 2023-06-30 10:11:50 · 535 阅读 · 1 评论 -
爬虫字体反爬的解决(三)
代码中没涉及太多的注释,一方面是考虑到爬虫能学到这一步,相信大家能力是足够的;另一方面也是为了让大家能够自己探求每一行代码在程序中的功能,所以只提供代码和大致思路,具体的理解就依靠大家自己了。原创 2023-06-25 01:10:41 · 1374 阅读 · 6 评论 -
爬虫字体反爬的解决(二)
如果说数据加密编码、字体文件不一样,不算是太可怕的事情,但是打开字体文件才发现,不同字体文件里面的编码相同,但是对应的数字变了,原来不同文件中构建的映射,是同一批编码和符号的随机组合,如果这个问题不解决,拿出来的数据就会有误差,这下子真头疼了。我按照上篇文章讲述的,找数据接口、找字体文件,结果发现,找到的接口中的同一辆车的加密编码不一样了,找到的字体文件的链接不一样了,下载下来的文件也有区别。最后希望“Guazi used car”的项目组人员看不到这两篇文章,不然反爬可能还会升级😂!原创 2023-06-15 15:17:14 · 722 阅读 · 0 评论 -
爬虫字体反爬的解决(一)
学习了前边的爬虫知识,大家一定爬取过很多的网站了,也一定被很多网站的各式各样的反爬机制劝退过,那么这些反爬机制如何来破解,大家也一定想破了头,本节课,我们来搞点不同寻常的有深度的事情——破解字体反爬!大家看目录,发现我把字体反爬分了多个章节,可想而知字体反爬的“困难程度”,但是不要紧,我们会把目前的字体反爬技术一一给大家讲解!原创 2023-05-06 14:59:44 · 1560 阅读 · 4 评论