跟着崔庆才学爬虫2:Beautiful Soup的使用(2) 至此,Beautiful Soup的介绍基本就结束了,最后做一下简单的总结。推荐使用LXML解析库,必要时使用html.parser。节点选择器筛选能力弱,但是速度快。建议使用find,find_all方法查询匹配的单个结果或者多个结果。如果对CSS选择器熟悉,则可以使用select选择法。
跟着崔庆才学爬虫2:Beautiful Soup的使用(1) 简单来说,Beautiful Soup时Python的一个HTML或XML的解析库,我们可以用它更方便的从页面中提取数据,其官方解释如下:Beautiful Soup 提供了一些简单的、python式的函数来处理导航,搜索,修改分析树等功能,它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以无须很多代码就可以写出一个完整的应用程序。
跟着崔庆才学爬虫2:XPATH的使用 Xpath的全程是 XML Path Language,即xml路径语言,用来在XML文档中查找信息,它最初就是用来搜寻xml文档的,但同时适用于html文档的搜索。所以在做爬虫时,我们完全可以使用Xpath实现对应的信息抽取,本节我们就介绍一下Xpath的基本用法。
跟着崔庆才学爬虫:httpx的使用 本章介绍了httpx的基本用法,该库的API与requests的非常相似,简单易用,同时支持HTTP/2.0,如果后面有需要requests爬取网页时,推荐大家使用httpx。
跟着崔庆才学爬虫之urllib的使用 近日想学习爬虫,入手一本《python3:网络爬虫开发实战》,此书不错,打算学习一番,为此发文记录自己的学习成果。前言是一些html基础和爬虫基础,文字太多,我们直接开始干货。python的基本库urllib的使用。由于是python的基本库,所以无需安装库,可直接使用。urllib.request模块提供了最基本的构造http请求方法,利用这个模块可以模拟浏览器请求发起过程。