![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python基本库
文章平均质量分 95
在猴站学知识
这个作者很懒,什么都没留下…
展开
-
网页数据的解析提取(Beautiful Soup库详解)
简单来说, Beautiful Soup 是 Python的一个 HTML 或XML 的解析库, 我们用它可以方便地从网页中提取数据, 其官方解释如下:Beautiful Soup 提供一些简单的、Python 式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据, 因为简单, 所以无须很多代码就可以写出一个完整的应用程序。Beautiful Soup 自动将输入文档转换为Unicode 编码, 将输出文档转换为 utf-8编码。原创 2024-02-22 21:38:21 · 1631 阅读 · 0 评论 -
网站常见的反爬手段及反反爬思路
摘要:介绍常见的反爬手段和反反爬思路,内容详细具体,明晰解释每一步,非常适合小白和初学者学习!!!原创 2024-02-19 22:39:47 · 1941 阅读 · 0 评论 -
网页数据的解析提取(XPath的使用----lxml库详解)
在提取网页信息时,最基础的方法是使用正则表达式,但过程比较烦琐且容易出错。对于网页节点来说,可以定义id、class或其他属性,而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在解析页面时,利用XPath或CSS选择器提取某个节点,然后调用相应方法获取该节点的正文内容或者属性,就可以提取我们想要的任意信息了。在Python中,如何实现上述操作呢?原创 2024-02-20 23:02:36 · 1465 阅读 · 0 评论 -
爬虫基本库的使用(requests库的详细解析)
前面,我们了解了urllib库的基本用法(其中,确实又不方便的地方。例如处理网页验证和Cookie时,需要写Opener类和Handler类来处理。另外实现POST、PUT等请求时的写法也不太方便。为了更加方便地实现这些操作,产生了更为强大的库----requests。有了它,Cookie、登录验证、代理设置更加方便。(request库是爬虫请求网页最为常用的库!!!因为它更加方便!!!哇,今天又是深爱Python的一天!!!原创 2024-02-21 16:31:15 · 1123 阅读 · 0 评论