一键爬取在Sustainability上发文最多的国家

导读

Sustainability(以下简称Sus)是由出版商MDPI2009年创立的一家开源期刊(Open Access Journal)。从2009年到2020年,Sus不过12岁,从最初的季刊,发展至如今的半月刊,并在刊文数量和收稿范围方面轻松超越诸位“老前辈”。为了让大家更深入地了解Sus,我们通过网络爬虫抓取了该刊自创刊以来的所有文献目录及其作者单位。下面,就让我们一起来看看如何实现吧~

20000余篇!

首先,通过分析源网页,我们发现需要抓取的文章链接和题目位于(<a class="title-link" href="标签所在的行")

在这里插入图片描述

其次,使用copy爬虫命令、字符串函数和正则表达式抓取并保留我们需要的内容。

clear all
copy "https://www.mdpi.com/2071-1050/1/1" temp.txt,replace
infix strL v 1-100000 using temp.txt,clear
keep if strpos(v,`""title-link" href=""')
**使用正则表达式提取文章题目和链接**
gen title = ustrregexs(1) if ustrregexm(v,`"(?<=">)(.*?)(?=</a>)"')  
replace title = ustrregexra(title,"<.*?>","")
gen title_link = ustrregexs(1) if ustrregexm(v,`"(?<=href=")(.*?)(?=">)"')
replace title_link = "https://www.mdpi.com" + title_link
drop v
save v1_part1,replace

最后,根据URL的规律,借助一个三 层 大 循 环就能把所有的文章链接和题目抓取下来以备二次爬虫(抓取作者单位)使用啦~

clear all
cap mkdir "D:/Sus"
cd "D:/Sus"
local a = 1
forvalues v = 1/12{
   
    forvalues i =1/24{
   
        forvalues p = 0(15)1500{
   
            clear
            cap copy "https://www.mdpi.com/2071-1050/`v'/`i'/default/`p'/15" temp.txt,replace
            if _rc == 601{
   
                continue,break
            }
            infix strL v 1-100000 using temp
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值