Python爬虫百度新闻标题

原文:https://blog.csdn.net/weixin_43881394/article/details/108200983
新学requests-html模块

import pandas as pd
from requests_html import HTMLSession

session = HTMLSession()
news_dict = {}
r = session.get('http://news.baidu.com/')
# 提取首页新闻内容
hot_news = r.html.find('div#pane-news', first=True)
a_s = hot_news.find('a')
news_dict['首页新闻标题'] = [a.text for a in a_s]  # 首页新闻标题
news_dict['首页新闻链接'] = [a.attrs['href'] for a in a_s]  # 首页新闻链接
# 提取热搜词内容
hot_news_words = r.html.find('ul.hotwords', first=True)
a_s = hot_news_words.find('a')
news_dict['热搜新闻词'] = [a.text for a in a_s]  # 热搜新闻词
news_dict['热搜链接'] = [a.attrs['href'] for a in a_s]  # 热搜链接
# 输出csv文件
dataframe = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in news_dict.items()]))
dataframe.to_csv('首页新闻.csv', sep=',', encoding='utf-8-sig')

输出:

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值