catca-CSDN博客

原创跟着崔庆才学爬虫2：Beautiful Soup的使用（2）

至此，Beautiful Soup的介绍基本就结束了，最后做一下简单的总结。推荐使用LXML解析库，必要时使用html.parser。节点选择器筛选能力弱，但是速度快。建议使用find,find_all方法查询匹配的单个结果或者多个结果。如果对CSS选择器熟悉，则可以使用select选择法。

2023-12-24 20:33:00 1075

原创跟着崔庆才学爬虫2：Beautiful Soup的使用（1）

简单来说，Beautiful Soup时Python的一个HTML或XML的解析库，我们可以用它更方便的从页面中提取数据，其官方解释如下：Beautiful Soup 提供了一些简单的、python式的函数来处理导航，搜索，修改分析树等功能，它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以无须很多代码就可以写出一个完整的应用程序。

2023-12-11 22:33:58 1375

原创跟着崔庆才学爬虫2：XPATH的使用

Xpath的全程是 XML Path Language，即xml路径语言，用来在XML文档中查找信息，它最初就是用来搜寻xml文档的，但同时适用于html文档的搜索。所以在做爬虫时，我们完全可以使用Xpath实现对应的信息抽取，本节我们就介绍一下Xpath的基本用法。

2023-12-06 22:42:29 1702 1

原创跟着崔庆才学爬虫2：基础爬虫案例实战

我们之前已经学习爬虫基本库，也对库的使用进行了基本的学习，现在就让我们用一篇实战来加深一下爬虫的具体用法。

2023-12-05 21:41:09 1750

原创跟着崔庆才学爬虫：httpx的使用

本章介绍了httpx的基本用法，该库的API与requests的非常相似，简单易用，同时支持HTTP/2.0,如果后面有需要requests爬取网页时，推荐大家使用httpx。

2023-11-16 16:59:56 715 1

原创跟着崔庆才学爬虫2：正则表达式

到此为止，正则表达式的基本用法就介绍完了，后面会用具体实例来巩固这些知识。

2023-11-15 21:48:15 864

原创跟着崔庆才学爬虫2：requests库的使用

没错，关于requests库的基本用法已经讲完了，用法和语法上都比urllib库更方便。明天我们继续讲解爬虫之正则篇。

2023-11-11 00:14:01 526 1

原创跟着崔庆才学爬虫之urllib的使用

近日想学习爬虫，入手一本《python3:网络爬虫开发实战》，此书不错，打算学习一番，为此发文记录自己的学习成果。前言是一些html基础和爬虫基础，文字太多，我们直接开始干货。python的基本库urllib的使用。由于是python的基本库，所以无需安装库，可直接使用。urllib.request模块提供了最基本的构造http请求方法，利用这个模块可以模拟浏览器请求发起过程。

2023-11-08 23:27:14 685 1

catca的博客