python爬虫提取a标签内的标题_python 爬虫之获取标题和链接

这篇博客介绍了如何使用Python的requests_html库,通过XPath提取oschina论坛个人主页的博客标题和链接。代码示例展示了如何遍历1-12篇文章,获取每个文章标题和对应的URL。遇到的两个问题:部分文章XPath中多了一个额外的参数,但不影响提取;获取链接时不需要添加.text。建议遇到问题时要勇于尝试解决。最后提到,可以将结果保存为JSON或TXT文件,进一步获取文章内容。
摘要由CSDN通过智能技术生成

最近在oschina论坛里发了一些文章,然后呢,今天主要是没有什么内容发布了,所以准备发个小代码。

爬取一下我的oschina论坛内的链接和标题,非常简单,非常容易。

先上代码

from requests_html import HTMLSession

session = HTMLSession()

url = “https://my.oschina.net/u/4798232" r = session.get(url)

for i in range(1, 12):

i = str(i)

urlxpath = ‘//*[@id=”newestBlogList”]/div[1]/div[‘+i+’]/div/a’

bt = r.html.xpath(urlxpath, first=True).text

c = urlxpath+‘/@href’

link = r.html.xpath(c, first=True)

a = “原”

if bt.find(a) == -1:

print(bt)

print(link)

else:

print(bt.replace(a, “”))

print(link)

首先呢,这个是通过xpath来进行操作的,具体如何复制xpath可以看我的zjzdmc.top/jsfx/47.html这篇文章,里面有动图。

然后导入什么库啥的,都是老生常谈的了,在a标签中,你复制的xpath为//*[@id=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值