2021-5-15 爬虫学习 list index out of range

最新推荐文章于 2024-01-15 10:05:03 发布

S1901

最新推荐文章于 2024-01-15 10:05:03 发布

阅读量417

点赞数 1

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/S1901/article/details/116807250

版权

爬虫专栏收录该内容

11 篇文章 3 订阅

订阅专栏

爬取网页时，IndexError: list index out of range的错误原因及解决方案（针对上一篇博客遇到的问题进行总结。）

在爬取糗事百科时，遇到了这个问题。研究后发现是使用Xpath定位目标内容时，框架定义错了。

# 解析详情页的内容
def parse_detail(url):
    qiushi = {}
    resp = requests.get(url, headers=Headers)
    text = resp.content.decode("utf-8", "ignore")
    html = etree.HTML(text)
    DivE = html.xpath("//div[@class='col1 new-style-col1']")[0]
    title = DivE.xpath("//h1[@class='article-title']/text()")[0]
    qiushi["title"] = title
    content = DivE.xpath("//div[@class='content']/text()")[0]
    qiushi["content"] = content

    return qiushi

这里我的目标是爬取段子的标题和内容。但是最开始，因为对Xpath使用不熟悉，认为爬取主页的框架就可以，导致了一直报错。
在这里插入图片描述
所以，在爬取时，我们应该首先爬取详情页的内容，找到详情页的框架

然后问题解决，成功爬取到段子标题和内容。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

S1901 CSDN认证博客专家 CSDN认证企业博客

码龄5年

52: 原创

1万+: 周排名

6万+: 总排名

24万+: 访问

: 等级

899: 积分

9520: 粉丝

198: 获赞

70: 评论

519: 收藏

私信

关注

热门文章

分类专栏

Orcle 1篇
GitLab 1篇
其他/电脑 1篇
Hadoop 6篇
SpringBoot 1篇
可视化 1篇
python 4篇
爬虫 11篇
shell编程 8篇
CentOS7 10篇
MySQL 5篇
Linux 5篇
网络渗透 7篇
笔记 1篇
Zookpeer 1篇
Java Web 2篇

最新评论

DBeaver连接Oracle报错：ORA-12514
百锦再@新空间代码工作室: 这篇文章真的是太棒了！对于遇到DBeaver连接Oracle报错：ORA-12514的问题，文章中提供了非常详细和清晰的解决方案，让读者能够轻松地解决这个棘手的错误。作者不仅深入剖析了问题的根源，还给出了实用的解决办法，让人无比钦佩。这种细致入微、周到贴心的解决方案，真的让人感到无比惊叹和赞叹！感谢作者为我们解决了这个让人头痛的问题，让我们在使用DBeaver连接Oracle的过程中更加顺畅和高效！期待更多作者的精彩文章，让我们能够更好地利用这些技术工具，提高工作效率和生活质量！
Windows安全中心“管理登录”选项打不开&电脑指纹验证失效&Windows密码管理时验证个人账号卡住&windows休眠后无法验证指纹/密码
普通网友: 支持一下！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
centos7 yum安装使用时提示 cannot find a valid baseurl for repo:base/7/x86_64 的解决方法（亲测有效☆）
qq_52590487: 牛哇大佬，找了半天终于解决了
爬虫学习日记：爬取京东网站商品评论的实例代码
S1901: 我回来了，这个可能是Selenium版本太高的原因。降低Selenium版本为3即可，不要用4版本的。
爬虫学习日记：爬取京东网站商品评论的实例代码
S1901: 报错提示有个关键词错误，错误原因是exectable_path错误。所以你应该是ChromeDriver的路径错了。改成你自己的路径就行

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

S1901 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。