自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 跟着崔庆才学爬虫2:Beautiful Soup的使用(2)

至此,Beautiful Soup的介绍基本就结束了,最后做一下简单的总结。推荐使用LXML解析库,必要时使用html.parser。节点选择器筛选能力弱,但是速度快。建议使用find,find_all方法查询匹配的单个结果或者多个结果。如果对CSS选择器熟悉,则可以使用select选择法。

2023-12-24 20:33:00 1075

原创 跟着崔庆才学爬虫2:Beautiful Soup的使用(1)

简单来说,Beautiful Soup时Python的一个HTML或XML的解析库,我们可以用它更方便的从页面中提取数据,其官方解释如下:Beautiful Soup 提供了一些简单的、python式的函数来处理导航,搜索,修改分析树等功能,它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以无须很多代码就可以写出一个完整的应用程序。

2023-12-11 22:33:58 1375

原创 跟着崔庆才学爬虫2:XPATH的使用

Xpath的全程是 XML Path Language,即xml路径语言,用来在XML文档中查找信息,它最初就是用来搜寻xml文档的,但同时适用于html文档的搜索。所以在做爬虫时,我们完全可以使用Xpath实现对应的信息抽取,本节我们就介绍一下Xpath的基本用法。

2023-12-06 22:42:29 1702 1

原创 跟着崔庆才学爬虫2:基础爬虫案例实战

我们之前已经学习爬虫基本库,也对库的使用进行了基本的学习,现在就让我们用一篇实战来加深一下爬虫的具体用法。

2023-12-05 21:41:09 1750

原创 跟着崔庆才学爬虫:httpx的使用

本章介绍了httpx的基本用法,该库的API与requests的非常相似,简单易用,同时支持HTTP/2.0,如果后面有需要requests爬取网页时,推荐大家使用httpx。

2023-11-16 16:59:56 715 1

原创 跟着崔庆才学爬虫2:正则表达式

到此为止,正则表达式的基本用法就介绍完了,后面会用具体实例来巩固这些知识。

2023-11-15 21:48:15 864

原创 跟着崔庆才学爬虫2:requests库的使用

没错,关于requests库的基本用法已经讲完了,用法和语法上都比urllib库更方便。明天我们继续讲解爬虫之正则篇。

2023-11-11 00:14:01 526 1

原创 跟着崔庆才学爬虫之urllib的使用

近日想学习爬虫,入手一本《python3:网络爬虫开发实战》,此书不错,打算学习一番,为此发文记录自己的学习成果。前言是一些html基础和爬虫基础,文字太多,我们直接开始干货。python的基本库urllib的使用。由于是python的基本库,所以无需安装库,可直接使用。urllib.request模块提供了最基本的构造http请求方法,利用这个模块可以模拟浏览器请求发起过程。

2023-11-08 23:27:14 685 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除