catca
码龄5年
关注
提问 私信
  • 博客:9,139
    9,139
    总访问量
  • 8
    原创
  • 452,315
    排名
  • 96
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:安徽省
  • 加入CSDN时间: 2020-06-13
博客简介:

catca的博客

查看详细资料
个人成就
  • 获得115次点赞
  • 内容获得4次评论
  • 获得93次收藏
创作历程
  • 8篇
    2023年
成就勋章
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

跟着崔庆才学爬虫2:Beautiful Soup的使用(2)

至此,Beautiful Soup的介绍基本就结束了,最后做一下简单的总结。推荐使用LXML解析库,必要时使用html.parser。节点选择器筛选能力弱,但是速度快。建议使用find,find_all方法查询匹配的单个结果或者多个结果。如果对CSS选择器熟悉,则可以使用select选择法。
原创
发布博客 2023.12.24 ·
1121 阅读 ·
25 点赞 ·
0 评论 ·
20 收藏

跟着崔庆才学爬虫2:Beautiful Soup的使用(1)

简单来说,Beautiful Soup时Python的一个HTML或XML的解析库,我们可以用它更方便的从页面中提取数据,其官方解释如下:Beautiful Soup 提供了一些简单的、python式的函数来处理导航,搜索,修改分析树等功能,它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以无须很多代码就可以写出一个完整的应用程序。
原创
发布博客 2023.12.11 ·
1406 阅读 ·
18 点赞 ·
0 评论 ·
24 收藏

跟着崔庆才学爬虫2:XPATH的使用

Xpath的全程是 XML Path Language,即xml路径语言,用来在XML文档中查找信息,它最初就是用来搜寻xml文档的,但同时适用于html文档的搜索。所以在做爬虫时,我们完全可以使用Xpath实现对应的信息抽取,本节我们就介绍一下Xpath的基本用法。
原创
发布博客 2023.12.06 ·
1745 阅读 ·
31 点赞 ·
1 评论 ·
24 收藏

跟着崔庆才学爬虫2:基础爬虫案例实战

我们之前已经学习爬虫基本库,也对库的使用进行了基本的学习,现在就让我们用一篇实战来加深一下爬虫的具体用法。
原创
发布博客 2023.12.05 ·
1908 阅读 ·
22 点赞 ·
0 评论 ·
23 收藏

跟着崔庆才学爬虫:httpx的使用

本章介绍了httpx的基本用法,该库的API与requests的非常相似,简单易用,同时支持HTTP/2.0,如果后面有需要requests爬取网页时,推荐大家使用httpx。
原创
发布博客 2023.11.16 ·
792 阅读 ·
3 点赞 ·
1 评论 ·
0 收藏

跟着崔庆才学爬虫2:正则表达式

到此为止,正则表达式的基本用法就介绍完了,后面会用具体实例来巩固这些知识。
原创
发布博客 2023.11.15 ·
899 阅读 ·
10 点赞 ·
1 评论 ·
0 收藏

跟着崔庆才学爬虫2:requests库的使用

发布资源 2023.11.11 ·
zip

跟着崔庆才学爬虫2:requests库的使用

没错,关于requests库的基本用法已经讲完了,用法和语法上都比urllib库更方便。明天我们继续讲解爬虫之正则篇。
原创
发布博客 2023.11.11 ·
556 阅读 ·
6 点赞 ·
1 评论 ·
1 收藏

跟着崔庆才学爬虫之urllib的使用

近日想学习爬虫,入手一本《python3:网络爬虫开发实战》,此书不错,打算学习一番,为此发文记录自己的学习成果。前言是一些html基础和爬虫基础,文字太多,我们直接开始干货。python的基本库urllib的使用。由于是python的基本库,所以无需安装库,可直接使用。urllib.request模块提供了最基本的构造http请求方法,利用这个模块可以模拟浏览器请求发起过程。
原创
发布博客 2023.11.08 ·
711 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏