使用etree与xpath爬取Discuz论坛

最新推荐文章于 2023-11-03 15:57:19 发布

普通Gopher

最新推荐文章于 2023-11-03 15:57:19 发布

阅读量543

点赞数

分类专栏：数据采集文章标签： lxml xpath

本文链接：https://blog.csdn.net/qq_43442524/article/details/103179535

版权

数据采集专栏收录该内容

2 篇文章 0 订阅

订阅专栏

引入模块

在pycharm中下载lxml库
通过from lxml import etree引入模块

测试

import requests
from lxml import etree
url = "https://www.discuz.net/forum-developer-1.html"
text = requests.get(url).text
html = etree.HTML(text)
context = etree.tostring(html).decode()
print(html.xpath('//div[@id="threadlist"]/div[2]/form/table/*'))
print(html.xpath('//*[@id="threadlisttableid"]/*'))

在这里插入图片描述

这里是通过xpath语法将论坛的所有tbody便签

print(html.xpath('//tbody/tr/th/a[@class="s xst"]/text()'))

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

普通Gopher

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
使用etree与xpath爬取Discuz论坛

引入模块在pycharm中下载lxml库通过from lxml import etree引入模块测试import requestsfrom lxml import etreeurl = "https://www.discuz.net/forum-developer-1.html"text = requests.get(url).texthtml = etree.HTML(text)...
复制链接

扫一扫