一、案例说明
通过对CVPR2018的论文标题的单词进行统计,利用词云进行可视化,来分析当年的研究热点词汇。
目标网站为CVPR 2018 Open Access Repository
二、具体步骤
2.1 爬虫准备数据
首先通过爬虫爬取CVPR官网上的论文标题以及作者的名字,得到初始的数据。
然后将得到的数据进行预处理,得到我们想要的数据。步骤如下:
首先观察目标网站的数据格式,查看网页源代码,定位到我们需要的论文标题和作者的数据,通过requests库发送请求,得到网页文本,然后用BeautifulSoup库来解析网页文本的标签对,得到我们要的数据,并返回列表。
代码如下:
<