python爬虫提取a标签内的标题_python 爬虫之获取标题和链接

最新推荐文章于 2024-09-10 15:53:35 发布

weixin_39883129

最新推荐文章于 2024-09-10 15:53:35 发布

阅读量1.7k

点赞数

文章标签： python爬虫提取a标签内的标题

这篇博客介绍了如何使用Python的requests_html库，通过XPath提取oschina论坛个人主页的博客标题和链接。代码示例展示了如何遍历1-12篇文章，获取每个文章标题和对应的URL。遇到的两个问题：部分文章XPath中多了一个额外的参数，但不影响提取；获取链接时不需要添加.text。建议遇到问题时要勇于尝试解决。最后提到，可以将结果保存为JSON或TXT文件，进一步获取文章内容。

摘要由CSDN通过智能技术生成

最近在oschina论坛里发了一些文章，然后呢，今天主要是没有什么内容发布了，所以准备发个小代码。

爬取一下我的oschina论坛内的链接和标题，非常简单，非常容易。

先上代码

from requests_html import HTMLSession

session = HTMLSession()

url = “https://my.oschina.net/u/4798232" r = session.get(url)

for i in range(1, 12):

i = str(i)

urlxpath = ‘//*[@id=”newestBlogList”]/div[1]/div[‘+i+’]/div/a’

bt = r.html.xpath(urlxpath, first=True).text

c = urlxpath+‘/@href’

link = r.html.xpath(c, first=True)

a = “原”

if bt.find(a) == -1:

print(bt)

print(link)

else:

print(bt.replace(a, “”))

print(link)

首先呢，这个是通过xpath来进行操作的，具体如何复制xpath可以看我的zjzdmc.top/jsfx/47.html这篇文章，里面有动图。

然后导入什么库啥的，都是老生常谈的了，在a标签中，你复制的xpath为//*[@id=

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。