Requests-HTML解析HTML的Python库

最新推荐文章于 2024-05-27 09:45:56 发布

Working&Learning

最新推荐文章于 2024-05-27 09:45:56 发布

阅读量2.6k

点赞数 1

分类专栏： python 文章标签： html解析 requests requests-html 爬虫 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZhuQinglin_lucky/article/details/79446675

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

HTML Parsing for Humans, 这句话是库作者(kennethreitz)原话, 提现出了这个库的人性化, 而近来作者出品了一个更加人性化的库，他就是Requests-HTML。

需要提示一下：目前requests-html只支持python3.6及以上版本。

首先需要安装此模块

pip install requests-html

获取首页:

>>> fromrequests_html import HTMLSession

>>> session= HTMLSession()

>>> data = session.get('http://www.baidu.com')

获取所有连接:

print(data.html.links)

获取的结果如下：

{'http://wenku.baidu.com/search?word=&lm=0&od=0&ie=utf-8','http://tieba.baidu.com', 'http://home.baidu.com','http://www.baidu.com/duty/','http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&ie=utf-8&word=','http://xueshu.baidu.com', 'http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=','http://e.baidu.com/?refer=888',…}

# 由于这里连接较多在这里仅仅粘贴一部分

获取所有绝对地址

print(data.html.absolute_links)

获取的结果如下：

{'http://ir.baidu.com','http://wenku.baidu.com/search?word=&lm=0&od=0&ie=utf-8','http://news.baidu.com', 'http://xueshu.baidu.com', 'http://tieba.baidu.com','https://www.baidu.com/more/',

{'https://www.csdn.net/nav/iot','http://blog.csdn.net/sfM06sqVW55DFt1', ... ,}

# 由于这里连接较多在这里仅仅粘贴一部分

使用bs4 css选择器

>>>element = data.html.find('#su')

>>>print(element.text)

使用xpath

element = data.html.xpath('//input[@id="su"]')

使用文本

element = data.html.find('a[name="tj_trnews"]')[0]
text = element.text

获取元素属性

>>>attrsr = element.attrs['name']

Print(attrsr)

将HTML转换为markdown:

>>>print(about.markdown)

*[About](/about/)

* [Applications](/about/apps/)

* [Quotes](/about/quotes/)

* [Getting Started](/about/gettingstarted/)

* [Help](/about/help/)

* [PythonBrochure](http://brochure.getpython.info/)

# 这里粘贴了作者的例子, CSDN上获取的没有这个例子清晰

最后附上GitHub原创作者的文章链接：https://github.com/kennethreitz/requests-html

Working&Learning

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Requests-HTML解析HTML的Python库

HTML Parsing for Humans, 这句话是库作者(kennethreitz)原话, 提现出了这个库的人性化, 而近来作者出品了一个更加人性化的库，他就是Requests-HTML。需要提示一下：目前requests-html只支持python3.6及以上版本。首先需要安装此模块pip install requests-html获取首页:&gt;&gt;&gt; fromreques...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。