采集百度新闻首页热点要闻标题及部分内容

最新推荐文章于 2022-01-27 23:23:40 发布

qq_33685754

最新推荐文章于 2022-01-27 23:23:40 发布

阅读量761

点赞数

本文链接：https://blog.csdn.net/qq_33685754/article/details/89220380

版权

import  bs4,requests
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
res=requests.get('https://news.baidu.com',headers=headers)
res.raise_for_status()

soup=bs4.BeautifulSoup(res.text,'html.parser')
items=soup.find_all('div',class_='mod-tab-content')
fp=open('新闻.txt','a')
for item in items:
    con=item.find_all('li')
    for i in con:
        # print(i.a.attrs['href'],i.a.text)
        res=requests.get(i.a.attrs['href'],headers=headers)
        # print(res.text)
        soup=bs4.BeautifulSoup(res.text,'html.parser')

        src=soup.select('.article-content')
        if src:
        # print(src.getText())
            for sc in src:
                a=sc.getText()
                fp.write('\n\r'+i.a.attrs['href']+'-----------'+i.a.text+':'+'\n'+a+'\r\n')
        else:
            fp.write('\n\r' + i.a.attrs['href'] + '-----------' + i.a.text + ':'  + '\r\n')
fp.close()

重温了bs4模块内容，tag等内容还掌握的不好，继续联系

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_33685754

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
采集百度新闻首页热点要闻标题及部分内容

import bs4,requestsheaders={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}res=requests.get('https://news.baidu.com',...
复制链接

扫一扫