python爬取百度学术文献_爬虫小项目之三学术文献爬虫+词云（上）

最新推荐文章于 2024-06-07 23:33:47 发布

weixin_39717152

最新推荐文章于 2024-06-07 23:33:47 发布

阅读量1.2k

点赞数

文章标签： python爬取百度学术文献

八月已经过了一半，答辩完之后，sci小论文也刚写完，今天难得休息。今天就来填上个月的坑，power bi做文献爬虫。这里先解释一下原理，首先使用学术搜索引擎搜索关键词，然后翻页下载所有的标题，作者，出版年份，引用次数，最后将下载完的数据用powerquery清洗，powerpivot建模，powerview可视化。词云的制作使用的是powerbi的可视化插件完成的，非常简单。另外，为了从词云中剔除非关键词，我使用了一个stopwordlist。大概就是这么多。先展示一下我的作品，以CAR T作为关键词检索bing学术：

值得一提的是powerbi制作的整个模型最后会保存为一个流程，这样只要换一个关键词再回车一下就可以更新整个流程。是不是很方便很刺激？唯一的限制就是蜗牛一般的网速。

为了方便理解，我把整个流程分为两部分：第一部分，讲网页爬取，难点是翻页爬取和二级链接爬取。第二部分，讲powerquery数据清洗和powerpivot数据建模。这里要用一点powerquery M语言和powerpivot DAX语言的知识，一点点就行。

OK废话不多讲，马上开始干活！

第一部分power bi爬虫

理论和软件安装的东西自己找资料看，我就直接上操作了。

Step 1 找网页链接规律

打开百度学术，搜索关键词：CAR T

我主要想拿的其实是网址：

这是第二页，但是pn=10，这说明啥？每页有10个文章，第二页就是从11开始了。知道这个规律就可以翻页爬取了。

Step 2 网页爬取

打开powerbi，选择获取数据->web->粘贴网址->确定->连接，选择表1。这张表格包含了标题、引用次数、刊出时间、杂志名称，还有一些其他我不关心的信息。

选择转换数据，就可以将数据导入到powerquery中，修改列名，删除其他不重要的信息。

到这里，需要根据前面的步骤创建一个函数。首先创建一个页码参数

然后，在“源”这个文件下修改函数命令

=Web.BrowserContents("https://xueshu.baidu.com/s?wd=Car%20T&pn=" & Text.From(Page) & "&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&sc_hit=1")

绿色的文本Page就是刚才的参数，Text.From(Page) 将Page转换为文本，&是连字符。这样整个流程就是一个根据Page抓取页面并清理文本的函数了。接下来，将这个流程生成一个以Page为参数的函数：

创建名为GetHtml的函数。这个函数可以这样表示Result=GetHtml(Page),Result就是我们抓取的数据了。

有了GetHtml函数，下一步需要一个页码list，来翻页抓取。生成页码list很简单，新建一个空查询命名为PageList，然后使用M函数生成List，就OK啦！

下面就是使用M函数调用GetHtml对PageList进行遍历，然后合并矩阵就OK啦！

先创建一个空查询，命名为result，在使用M语言

=List.Transform ( PageList , each GetHtml (_ ) )

(注释：List.Transform类似于for循环，_ 类似于迭代参数。)

OK，我翻了10页，要等下载数据，等数据下载完成就可以得到一个Table的List

下面就是将List合并就可以了，这里使用Table.Combine函数。

= Table.Combine( List.Transform(PageList,each GetHtml(_)) )

合并之后最后的结果就出来了！

坑爹的百度杂志不用全名，解决这个问题可以用二级爬取，这个下次讲。