导读
Sustainability
(以下简称Sus
)是由出版商MDPI
于2009
年创立的一家开源期刊(Open Access Journal
)。从2009
年到2020
年,Sus
不过12
岁,从最初的季刊,发展至如今的半月刊,并在刊文数量和收稿范围方面轻松超越诸位“老前辈”。为了让大家更深入地了解Sus
,我们通过网络爬虫抓取了该刊自创刊以来的所有文献目录及其作者单位。下面,就让我们一起来看看如何实现吧~
20000余篇!
首先,通过分析源网页,我们发现需要抓取的文章链接和题目位于(<a class="title-link" href="标签所在的行")
。
其次,使用copy
爬虫命令、字符串函数和正则表达式抓取并保留我们需要的内容。
clear all
copy "https://www.mdpi.com/2071-1050/1/1" temp.txt,replace
infix strL v 1-100000 using temp.txt,clear
keep if strpos(v,`""title-link" href=""')
**使用正则表达式提取文章题目和链接**
gen title = ustrregexs(1) if ustrregexm(v,`"(?<=">)(.*?)(?=</a>)"')
replace title = ustrregexra(title,"<.*?>","")
gen title_link = ustrregexs(1) if ustrregexm(v,`"(?<=href=")(.*?)(?=">)"')
replace title_link = "https://www.mdpi.com" + title_link
drop v
save v1_part1,replace
最后,根据URL
的规律,借助一个三 层 大 循 环就能把所有的文章链接和题目抓取下来以备二次爬虫(抓取作者单位)使用啦~
clear all
cap mkdir "D:/Sus"
cd "D:/Sus"
local a = 1
forvalues v = 1/12{
forvalues i =1/24{
forvalues p = 0(15)1500{
clear
cap copy "https://www.mdpi.com/2071-1050/`v'/`i'/default/`p'/15" temp.txt,replace
if _rc == 601{
continue,break
}
infix strL v 1-100000 using temp