Python爬虫百度新闻标题

最新推荐文章于 2024-06-30 15:50:01 发布

迷心兔

最新推荐文章于 2024-06-30 15:50:01 发布

阅读量1k

点赞数

原文链接：https://blog.csdn.net/weixin_43881394/article/details/108200983

版权

Python 专栏收录该内容

49 篇文章 0 订阅

订阅专栏

原文：https://blog.csdn.net/weixin_43881394/article/details/108200983
新学requests-html模块

import pandas as pd
from requests_html import HTMLSession

session = HTMLSession()
news_dict = {}
r = session.get('http://news.baidu.com/')
# 提取首页新闻内容
hot_news = r.html.find('div#pane-news', first=True)
a_s = hot_news.find('a')
news_dict['首页新闻标题'] = [a.text for a in a_s]  # 首页新闻标题
news_dict['首页新闻链接'] = [a.attrs['href'] for a in a_s]  # 首页新闻链接
# 提取热搜词内容
hot_news_words = r.html.find('ul.hotwords', first=True)
a_s = hot_news_words.find('a')
news_dict['热搜新闻词'] = [a.text for a in a_s]  # 热搜新闻词
news_dict['热搜链接'] = [a.attrs['href'] for a in a_s]  # 热搜链接
# 输出csv文件
dataframe = pd.DataFrame(dict([(k, pd.Series(v)) for k, v in news_dict.items()]))
dataframe.to_csv('首页新闻.csv', sep=',', encoding='utf-8-sig')

输出：

在这里插入图片描述

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

迷心兔 CSDN认证博客专家 CSDN认证企业博客

码龄5年

100: 原创

4万+: 周排名

181万+: 总排名

21万+: 访问

: 等级

2913: 积分

676: 粉丝

46: 获赞

73: 评论

265: 收藏

私信

关注

热门文章

分类专栏

Python Flask 3篇

最新评论

【2021-10-12】Frida Web GUI 的运行时移动应用程序分析工具包【house】
非花非雾--: 有用过最新的frida进行过测试吗，我这边一直报异常
三次请求值逆向 __jsl_clearance_s 参数
迷心兔: http://www.cnlans.com:8887/
三次请求值逆向 __jsl_clearance_s 参数
幫我打開可樂: 工具不能用了有别的替换的工具么 emmm
三次请求值逆向 __jsl_clearance_s 参数
迷心兔: 我刚测试这个get__jsl_clearance_s_1函数，我这边是没问题的哦【效果还不知道，我再公司没有全部文件，所以不知道拿不拿得到数据】
三次请求值逆向 __jsl_clearance_s 参数
qq_43373762: 请教一下出现这种问题怎么办网址 http://www.mafengwo.cn/i/22391980.html Traceback (most recent call last): File "C:/programming/pycharm/PyCharm Community Edition 2021.2.2/M_learning/statistics/test6.py", line 97, in <module> main() File "C:/programming/pycharm/PyCharm Community Edition 2021.2.2/M_learning/statistics/test6.py", line 88, in main get_cookie() File "C:/programming/pycharm/PyCharm Community Edition 2021.2.2/M_learning/statistics/test6.py", line 79, in get_cookie __jsl_clearance_s = get__jsl_clearance_s_1(r.text) File "C:/programming/pycharm/PyCharm Community Edition 2021.2.2/M_learning/statistics/test6.py", line 46, in get__jsl_clearance_s_1 info = re.findall(r".*cookie=(.*?);location.*",info)[0] IndexError: list index out of range

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。