Python使用requests库爬取中国新闻网指定页面

前言

前面的文章(https://blog.csdn.net/qq_43382739/article/details/107513977)主要爬取首页的新闻列表而不是具体的新闻内容,本文会具体的分析如何爬取实际的新闻页面的具体内容
在这里插入图片描述
观察图中的新闻列表会发现有三种类型的新闻,点进去可以发现三种新闻的页面的类型不同,这里只选择性爬取类似于第一条新闻的类型,另外两种类型的爬取方法相似,可以自己去实践–_--

页面分析

一个新闻的内容不外乎三种类型:视频,图片,文字。这里选取三种内容都包含的页面来分析,链接如下:http://www.chinanews.com/gn/2020/07-22/9245520.shtml
在这里插入图片描述
打开控制台,视频一般会放在文章最前面,在id为tupian_div的div标签中(这里有坑,后面会讲。。。),正文会放在class为left_zw的div标签里的p标签中,图片会掺杂在p标签中

视频部分的爬取

按照上篇文章的采用xpath对html进行解析,视频主要在div下的source标签中,试着爬取一下地址
在这里插入图片描述
明显爬了个寂寞。。。
基本上可以判定视频是通过js动态加载出来的,具体如何应对这种情况的话会在后面的博客里说,因为内容还是比较多
这里的解决办法:在该div下面的第三个script标签中有视频地址,有那么点投机取巧的意思
在这里插入图片描述
提取视频地址的具体代码:

videos = news_demo.xpath('//div[@id="tupian_div"]//script')
videos_script = str(videos[2
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值