【python】爬虫笔记-用xpath提取网页内容总是重复提取的解决

最新推荐文章于 2024-04-30 19:24:04 发布

wangcles

最新推荐文章于 2024-04-30 19:24:04 发布

阅读量1.7k

点赞数 2

分类专栏：爬虫笔记文章标签： python 爬虫 xpath

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangcles/article/details/120754586

版权

爬虫笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

提取网页中的每个标题，成功执行，但所有内容都是一样的

    tree = etree.HTML(page_text)
    fp = open('58.txt','w',encoding='utf-8')
    li_list = tree.xpath('//section[@data-bottom="250"]/ul/li[@class="item-wrap"]') 
    for li in li_list：
        title = li.xpath('//div[@class="title-wrap lines2"]/span/text()')[0]
        fp.write(title+'\n')

回去网页查了半天，应该是xpath的定位出了问题：
为了省事直接用了//
问题原因：
自定义的xpath不能以//或/开头，因为这个表示了绝对定位。
应该以./开头

于是第一次修改了代码：

title = li.xpath('./div[@class="content-wrap"]//span/text()')[0]

报错：

IndexError: list index out of range

回去查发现漏了一个标签a

itle = li.xpath('./a/div[@class="content-wrap"]//span/text()')[0]

不够简洁，再修改了一下：

title = li.xpath('./a//span/text()')[0]

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【python】爬虫笔记-用xpath提取网页内容总是重复提取的解决

提取网页中的每个标题，成功执行，但所有内容都是一样的 tree = etree.HTML(page_text) fp = open('58.txt','w',encoding='utf-8') li_list = tree.xpath('//section[@data-bottom="250"]/ul/li[@class="item-wrap"]') for li in li_list： title = li.xpath('//div[@class="tit
复制链接

扫一扫

专栏目录

wangcles CSDN认证博客专家 CSDN认证企业博客

码龄3年

12: 原创

108万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

199: 积分

49: 粉丝

68: 获赞

5: 评论

90: 收藏

私信

关注

热门文章

分类专栏

刷题 2篇
前端 2篇
爬虫笔记 3篇

最新评论

代码随想录算法训练营day8day9字符串344反转字符串541反转字符串II卡码54替换数字151翻转字符串里的单词卡码55.右旋转字符串28实现 strStr()459.重复的子字符串
CSDN-Ada助手: 恭喜博主持续更新博客，分享了算法训练营day8到day9的内容，内容涵盖了字符串反转、替换数字、翻转单词等多个方面，让读者受益匪浅。建议下一步可以适当增加一些实际案例或者应用场景，让读者更好地理解算法的实际应用。希望博主能够继续保持创作热情，期待更多精彩内容的分享！
代码随想录算法训练营day4链表24两两交换链表中的节点19删除链表的倒数第N个节点链表相交142环形链表II
CSDN-Ada助手: 恭喜你写了第10篇博客！看到你对算法训练营的学习成果，我感到非常欣慰。不过，我想建议你在写博客的时候，可以适当增加一些实际应用的案例，这样读者可以更好地理解和运用你所分享的内容。希望你能继续保持创作的热情，期待你更多精彩的文章！
代码随想录算法训练营day6、day7242.有效的字母异位词349.两个数组的交集202.快乐数1.两数之和454.四数相加ll383.赎金信15.三数之和
CSDN-Ada助手: 恭喜你在算法训练营中坚持学习，第8篇博客内容丰富，对哈希表的学习也让我受益匪浅。希望你能继续保持写作的热情，同时也建议你可以尝试加入一些实际案例或者个人见解，让读者更加容易理解和接受你的观点。期待你的下一篇作品！
代码随想算法训练营day3 203.移除链表元素707.设计链表206.反转链表
CSDN-Ada助手: 恭喜您写了第7篇博客！标题中涵盖了三个有趣的算法题目，看来您在代码随想算法训练营的学习进展不错！我很欣赏您的坚持和努力，持续创作对于提高算法能力和编程技巧非常重要。在下一步的创作中，我建议您可以尝试将自己对这些题目的思考和解法进行详细的分析和讲解，这样可以帮助读者更好地理解问题和解决方案。同时，可以考虑加入一些个人的编程心得和经验分享，让读者更多地了解您的学习过程和成长历程。希望您能继续保持学习的热情，努力创作更多有价值的内容！加油！
代码随想录算法训练营day2 977 有序数组的平方209.长度最小的子数组59.螺旋矩阵II
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。