requests + bs4爬取新闻标题及内容

本文介绍了如何结合requests和BeautifulSoup库爬取新闻标题和内容,详细讲解了库的导入、新闻标题的抓取以及内容的获取。还提及了parse.urljoin在构建绝对URL中的作用,以及BeautifulSoup的findAll和find方法的使用。另外,提到了selenium库作为另一种爬虫选择,它可以实现网页动态加载和页面截屏,但需要与其他浏览器配合使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、库的导入

from urllib.request import urlopen
from bs4 import BeautifulSoup  
from urllib import parse
import requests

二、新闻标题的爬取

html = urlopen("http://xgxy.hbue.edu.cn/")#打开所需爬取的页面
bs = BeautifulSoup(html,'html.parser')#用BeautifulSoup解析网页
  
p1 = bs.findAll('div',{'class':'news_tit'})#找到新闻标题的所在标签名称

for each in p1:
    titles = each.select('a')[0]['title']#即a标签下的title
    print(titles)

在这里插入图片描述
在这里插入图片描述

三、爬取新闻的内容

page_url = "http://xgxy.hbue.edu.cn/"
news_full_urls = []
 
p1 = bs.findAll('div',{'class':'news_tit'})
#爬取新闻内容的链接
for each
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值