python爬取百度学术文献搜索引擎_爬虫系列 | 基于百度爬虫的非百度搜索引擎

最新推荐文章于 2024-06-07 23:33:47 发布

weixin_39822443

最新推荐文章于 2024-06-07 23:33:47 发布

阅读量429

点赞数

文章标签： python爬取百度学术文献搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39822443/article/details/111759710

版权

这篇博客介绍了一个Python爬虫项目，旨在无需浏览器就能搜索并保存百度学术的文献信息，包括标题、来源、时间及内容。通过调整rtt参数实现焦点或时间排序，通过pn参数控制翻页，利用requests库和BeautifulSoup解析HTML，最终将数据保存到CSV文件。

摘要由CSDN通过智能技术生成

这是本项目的开篇，在这个小项目中，将要基于爬虫和GUI编程写一个写个小工具，目的是不用打开浏览器，也能搜到一些关键信息，并将这些信息持久化保存下来，读者可以对这些数据进行分析，比如舆情分析，或作为 NLP 的语料输入。

众所周知，搜索引擎的一个核心技术就是爬虫技术，各大搜索引擎的爬虫将个网站的快照索引起来，用户搜索时，输入关键词并回车后，基于搜索引擎的浏览器就将相关信息按照一定排序规则展现给用户，今天分享的这个爬虫，是爬取百度爬虫爬取的内容，听起来，有点像俄罗斯套娃。

话不多说，先用一张图，说明要爬取的内容

如图，爬取的目标是百度咨询下的每一条内容，包括标题、来源、时间和内容，并且翻页爬取、爬完能够自动停止，而且能够按照焦点/时间排序。

经过调试分析，发现排序规则和参数rtt相关，rtt = 1 是按照焦点排序，rtt = 4 是按照时间排序，这样就很容易解决排序抓取的问题。

翻页只需要控制pn参数即可，其值等于当前页码 * 10；爬完自动停止，首先要知道什么时候爬完，从上面图中可以发现，网页上有“找到相关资讯约535,000篇”，好家伙，除以每页 10 篇，总页数就知道了，就知道什么时候停止了。

下面就是写代码逐渐实现的过程了。

首先备好爬虫的原料

headers = {

'User-Agent'

最低0.47元/天解锁文章

weixin_39822443

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。