爬虫之爬取新闻列表

本文介绍了使用Python的BeautifulSoup4和requests模块爬取新闻网站标题、链接和时间的方法。通过分析HTML源码,找到具有'news-item'类属性的元素,过滤掉不需要的内容和空值,最终将数据保存到Excel文件中。
摘要由CSDN通过智能技术生成

爬取标题-链接-时间

很久前就尝试了爬虫学习,但是一直没有怎么去实际工作中使用过,这段时间工作上的事也稍微少了点,就来写写爬虫的东西**
本次使用的模块:
BeautifulSoup4,requests
可以看到,新闻的链接为:
https://news.sina.com.cn/world/
而且使用的是get方法

在这里插入图片描述
在源码中观察到,新闻有一个class属性为’news-item’
在这里插入图片描述

所以,可以通过该属性找到下面我们所需要的

import requests
from bs4 import BeautifulSoup

res = requests.get('https://news.sina.com.cn/world/')
res.encoding='utf-8'
# print(res.text)
#soup为列表形式,内容存放在soup中,
soup = BeautifulSoup(res.text,'html.parser')
# 查找class值为news-item的元素内容
new_itme = soup.select('.news-item')
for news in new_itme:
    print(news)

在这里插入图片描述
结果中可以看到,news中包含了很多标签等多余的东西,所以需要去掉这些,

#标题文字在h2标签下,使用[0]去掉中括号,筛选出标题文字
character = news.select('h2')[0].text
#链接在a标签下,同理,获取href的值
link = news.select('a')[0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值