网络爬虫从入门到精通(更新中)
文章平均质量分 88
一步一步去认识运用网络爬虫
小孟技术栈
爬虫合集,视觉编程,日常开发,公众号:小孟技术栈
展开
-
14.爬虫---Selenium 经典动态渲染工具的使用
Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等等操作,对于一些 JavaScript 渲染的页面来说,此种抓取方式非常有效,下面我们来看下 Selenium 的安装过程。原创 2024-07-10 10:04:00 · 806 阅读 · 0 评论 -
13.爬虫---PyMongo安装与使用
PyMongo 为 Python 程序员提供了一个强大且易于使用的 MongoDB 接口。通过上述教程,你可以学会如何安装 PyMongo、连接 MongoDB、创建数据库和集合、插入和查询文档、更新和删除数据,以及如何对结果进行排序、跳过和限制。这些操作构成了与 MongoDB 数据库交互的基础。原创 2024-06-23 14:46:45 · 1442 阅读 · 0 评论 -
12.爬虫---PyMysql安装与使用
PyMySQL是一个功能强大且易于使用的库,它简化了Python与MySQL之间的交互。无论是进行简单的查询,还是复杂的CRUD操作,PyMySQL都能提供清晰、简洁的接口。此外,由于它是纯Python编写的,因此安装和使用都非常简单。如果你需要在Python项目中与MySQL数据库进行交互,PyMySQL无疑是一个很好的选择。原创 2024-06-18 09:55:36 · 1396 阅读 · 0 评论 -
11.爬虫---BeautifulSoup安装并解析爬取数据
BeautifulSoup是Python中的一个用于解析HTML和XML文档的库,它提供了一种Pythonic的方式来遍历文档、搜索元素以及修改文档的功能。在网络爬虫中,BeautifulSoup通常与其他库(如Requests)一起使用,用于解析和提取网页中的数据。原创 2024-06-07 14:40:35 · 1084 阅读 · 0 评论 -
10.爬虫---XPath插件安装并解析爬取数据
XPath是一门在XML文档中查找信息的语言,它使用路径表达式来选取XML文档中的节点或者节点集。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力,允许开发者精确地定位XML文档中的元素、属性或节点集。原创 2024-06-06 15:13:26 · 1890 阅读 · 0 评论 -
09.爬虫---正则解析爬取数据
然后创建一个 csv.writer 对象 csv_f,用于将数据写入到文件中。接下来,使用 csv_f.writerow()作用是打开一个名为 data.csv 的文件(如果不存在则创建),并使用 gbk 编码方式进行读写操作,同时设置换行符为。方法将包含列名的一行写入到文件中,该行包含了13个列的名称。这样,文件 data.csv。就具有了一个表格的结构,可以用于存储和处理数据。原创 2024-06-04 10:05:51 · 941 阅读 · 0 评论 -
08.爬虫---强大的正则表达式
正则表达式(Regular Expression,简称Regex或RegExp)是一种强大的文本匹配工具,它能够根据一定的规则来匹配字符串。正则表达式广泛应用于文本处理、数据抽取、验证等领域,如电子邮件地址验证、搜索引擎、编译器、解释器等。原创 2024-06-02 09:24:44 · 1119 阅读 · 0 评论 -
07.爬虫---使用session发送请求
我们以这个网站作为目标网站。原创 2024-05-30 10:32:39 · 805 阅读 · 0 评论 -
06.爬虫---urllib与requests请求实战(POST)
也是困扰了我个多小时,当我把参数拿出来对比时发现了有点微妙。cursor 原本是字符串 ‘0’ ,转后变成了 0。原创 2024-05-29 09:49:49 · 897 阅读 · 0 评论 -
05.爬虫---urllib与requests请求实战(GET)
是一个第三方库,提供了一个更简洁、易用的API来发送HTTP请求。urllib能够处理的基本请求包括GET、POST、PUT、DELETE等,同时也支持设置请求头、请求体、处理cookies等高级功能,但其API相对较为底层,使用起来比较繁琐。请求头对爬虫来说,就好像一个面具,去模仿人去浏览网站,就不会被网站发现,也可以理解为打开网站的钥匙,上面我们知道,数据在链接中,但是我们申请后,返回状态码是418,请求失败,所有我们现在戴上面具,或者说,拿着钥匙再去申请,看看能不能成功打开。原创 2024-05-27 09:06:10 · 1105 阅读 · 0 评论 -
04.爬虫---Session和Cookie
如果服务器设置的 Cookies 保存到硬盘上,或者使用某种手段改写浏览器发出的 HTTP 请求头,把原来的 Cookies 发送给服务器,则再次打开浏览器,仍然能够找到原来的 Session ID,依旧还是可以保持登录状态的。而且恰恰是由于关闭浏览器不会导致 Session 被删除,这就需要服务器为 Session 设置一个失效时间,当距离客户端上一次使用 Session 的时间超过这个失效时间时,服务器就可以认为客户端已经停止了活动,才会把 Session 删除以节省存储空间。原创 2024-05-26 08:44:10 · 1168 阅读 · 0 评论 -
03.爬虫---认识HTML网页
HTML页面由多个元素组成,这些元素定义了页面的结构和内容。HTML文档主要由<html><head>和<body>四个主要部分构成。是文档类型声明,它告诉浏览器这是一个HTML5文档,并使用HTML5的标准来解析。元素是整个HTML文档的根元素,它包含了整个页面的内容。元素包含了页面的元数据,如页面标题、字符集、样式表和脚本等。元素则包含了用户能看到的所有内容,如文本、图片、链接等。原创 2024-05-24 08:47:29 · 1107 阅读 · 0 评论 -
02.爬虫---HTTP基本原理
URN是URI的一种形式,它通过一个全局唯一的名称来标识资源,这个名称在某个命名空间中是唯一的。URL是用来定位和访问互联网上资源的独特标识,它包括了资源的位置(如IP地址或域名)、端口号(可选)、路径(资源在服务器上的位置)、查询(用于传递参数)和片段(用于指定资源中的特定部分)。URI可以分为URL和URN两种。URL是URI的一种形式,它提供了定位资源的方法,而URN则是用特定命名空间的名字来标识资源,不包含位置信息。:更通用的资源标识符,可以是URL或URN,用于标识资源,但不提供定位信息。原创 2024-05-23 11:39:37 · 1671 阅读 · 2 评论 -
01.爬虫---初识网络爬虫
网络爬虫,亦称网络蜘蛛或网络机器人,是一种能够自动地、系统地浏览和收集互联网上信息的程序。它依照一定的规则和算法,访问网页并提取所需的数据,使得数据收集变得高效且自动化。网络爬虫在不同领域有着广泛的应用,如搜索引擎、数据挖掘、舆情监测等,它能够帮助我们快速地从海量数据中提取所需信息,为决策提供强有力的数据支持。网络爬虫是一种强大的自动化工具,它能够在众多领域发挥重要作用,助力我们从海量数据中提取所需信息。在使用网络爬虫时,我们应当遵守相关法律法规,尊重用户隐私,合理使用,确保数据抓取的合法性。原创 2024-05-22 09:36:11 · 2707 阅读 · 0 评论