爬虫之爬取新闻列表

最新推荐文章于 2021-08-17 10:57:04 发布

saber_sss

最新推荐文章于 2021-08-17 10:57:04 发布

阅读量1.1k

点赞数

分类专栏：爬虫 python 文章标签： python

本文链接：https://blog.csdn.net/saber_sss/article/details/105393116

版权

本文介绍了使用Python的BeautifulSoup4和requests模块爬取新闻网站标题、链接和时间的方法。通过分析HTML源码，找到具有'news-item'类属性的元素，过滤掉不需要的内容和空值，最终将数据保存到Excel文件中。

摘要由CSDN通过智能技术生成

爬取标题-链接-时间

很久前就尝试了爬虫学习，但是一直没有怎么去实际工作中使用过，这段时间工作上的事也稍微少了点，就来写写爬虫的东西**
本次使用的模块：
BeautifulSoup4，requests
可以看到，新闻的链接为：
https://news.sina.com.cn/world/
而且使用的是get方法

在这里插入图片描述
在源码中观察到，新闻有一个class属性为’news-item’

所以，可以通过该属性找到下面我们所需要的

import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.sina.com.cn/world/')
res.encoding='utf-8'
# print(res.text)
#soup为列表形式，内容存放在soup中，
soup = BeautifulSoup(res.text,'html.parser')
# 查找class值为news-item的元素内容
new_itme = soup.select('.news-item')
for news in new_itme:
    print(news)

在这里插入图片描述
结果中可以看到，news中包含了很多标签等多余的东西，所以需要去掉这些，

#标题文字在h2标签下，使用[0]去掉中括号，筛选出标题文字
character = news.select('h2')[0].text
#链接在a标签下，同理，获取href的值
link = news.select('a')[0

最低0.47元/天解锁文章

saber_sss

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录