Python爬虫抓取论文引用量

Python爬虫抓取论文引用量

1 平台情况介绍

ACM(Association for Computing Machinery)指美国计算机协会,是全球历史最悠久和最大的计算机教育和科研机构.ACM数据库收录了大量关于信息技术教育、科研和应用方面的期刊和会议论文,是计算机和信息技术领域十分重要的资源窗口.
但是该平台在检索方面存在一定的问题,如以“Trajectory data”为主题检索2019-2021年的期刊论文,当以被引量排序时,排在前列的往往是高引用、低相关的论文,而这与我们的检索初衷相违背。
按被引量排序

2 爬虫抓取引用量

一种替代方法是先按相关度排序,再对相关度前100的论文取被引量较高的文献。这样既可以保证高引用,又可以确保高相关。
通过Python爬虫可以快速批量抓取按相关度排名时各论文的被引量,首先拿下网页的源码,然后通过Python正则表达式匹配,找出论文标题、作者、被引量等信息即可。
类似的思路同样适用于Springer等平台,但正则表达式需要修改,且循环获取数据时需要考虑被引量是否直接显示在了检索界面上。若未显示,则需要模拟浏览器进入论文详情界面获取。

2.1 正则表达式匹配

匹配实质上就是从html文件中找到信息出现的位置,通常这些信息前后会有固定的格式,从而可以实现匹配。

//匹配论文链接
findlink = re.compile(r'<h5 class=.*><a href="(.*?)">')
//匹配论文标题
findtitle = re.compile(r'<a href="/doi/10.1145.*\d">(.*?)</a>')
//匹配论文被引量
findcitation = re.compile(r'<i class="icon-quote">.*?<span>(.*?)</span>')
//匹配论文作者
findauthor = re.compile(r'<a href="/profile/.*" title="(.*?)">')

2.2 循环获取数据

def getData():
	//可以将网页代码保存到本地,也可以通过askURL()获取
    # html = askURL("https://dlnext.acm.org/action/doSearch?fillQuickSearch=false&target=advanced&expand=dl&field1=AllField&text1=Trajectory+Data+&AfterYear=2019&BeforeYear=2021&startPage=0&pageSize=50")
    html = open("ACMTop100.html", 'r', encoding='utf-8')
    //网页解析器
    soup = BeautifulSoup(html, 'html.parser')
    # print(soup)
    //对于每一条论文信息
    for item in soup.find_all(attrs={'class':'search__item issue-item-container'}):
        item = str(item)
        //正则表达式匹配
        link = re.findall(findlink, item)[0]
        link = "https://dlnext.acm.org" + link
        title = re.findall(findtitle, item)
        //信息缺失特殊处理
        if len(title) > 0:
            title = title[0]
            title = str(title)
            title = title.replace('<span class="single_highlight_class" οnclick="highlight()">','')
            title = title.replace('</span>','')
        citation = re.findall(findcitation, item)[0]
        author = re.findall(findauthor, item)
        # print(link)
        # print(title)
        # print(citation)
        # print(author)
        //保存数据
        data = [link, title, citation, author]
        datalist.append(data)

2.3 数据保存

def saveData(datalist, savepath):
    print("save...")
    book = xlwt.Workbook(encoding='utf-8', style_compression=0)
    sheet = book.add_sheet("ACMTop100", cell_overwrite_ok=True)
    //列名
    col = ("link", "title", "citation", "author")
    for i in range(0, 4):
        sheet.write(0, i, col[i])
    //相关度前100项记录
    for i in range(0, 100):
        if i % 9 == 0:
            print("---------第{}条-----------".format(i+1))
        data = datalist[i]
        for j in range(0, 4):
            sheet.write(i + 1, j, data[j])
    book.save(savepath)

3 完整代码

process.py

import re
from bs4 import BeautifulSoup
import urllib.request
import xlwt

findlink = re.compile(r'<h5 class=.*><a href="(.*?)">')
findtitle = re.compile(r'<a href="/doi/10.1145.*\d">(.*?)</a>')
findcitation = re.compile(r'<i class="icon-quote">.*?<span>(.*?)</span>')
findauthor = re.compile(r'<a href="/profile/.*" title="(.*?)">')

datalist = []
def askURL(URL):
    head = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Edg/94.0.992.38"}
    request = urllib.request.Request(URL,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html


def getData():
    # html = askURL("https://dlnext.acm.org/action/doSearch?fillQuickSearch=false&target=advanced&expand=dl&field1=AllField&text1=Trajectory+Data+&AfterYear=2019&BeforeYear=2021&startPage=0&pageSize=50")
    html = open("ACMTop100.html", 'r', encoding='utf-8')
    soup = BeautifulSoup(html, 'html.parser')
    # print(soup)
    for item in soup.find_all(attrs={'class':'search__item issue-item-container'}):
        item = str(item)
        link = re.findall(findlink, item)[0]
        link = "https://dlnext.acm.org" + link
        title = re.findall(findtitle, item)
        if len(title) > 0:
            title = title[0]
            title = str(title)
            title = title.replace('<span class="single_highlight_class" οnclick="highlight()">','')
            title = title.replace('</span>','')
        citation = re.findall(findcitation, item)[0]
        author = re.findall(findauthor, item)
        print(link)
        print(title)
        print(citation)
        print(author)
        data = [link, title, citation, author]
        datalist.append(data)

def saveData(datalist, savepath):
    print("save...")
    book = xlwt.Workbook(encoding='utf-8', style_compression=0)
    sheet = book.add_sheet("ACMTop100", cell_overwrite_ok=True)
    col = ("link", "title", "citation", "author")
    for i in range(0, 4):
        sheet.write(0, i, col[i])
    for i in range(0, 100):
        if i % 9 == 0:
            print("---------第{}条-----------".format(i+1))
        data = datalist[i]
        for j in range(0, 4):
            sheet.write(i + 1, j, data[j])

    book.save(savepath)

if __name__ == "__main__":
    getData()
    saveData(datalist,"ACMPaperTop100.xls")

本文所用ACM网页源码html
本文爬取结果xls

### 编写Python爬虫抓取学术文献 #### 使用`requests`和`BeautifulSoup` 为了从学术平台上抓取文献信息,可以采用`requests`库发送HTTP请求并接收响应,以及使用`BeautifulSoup`库解析HTML文档。这两个库非常适合处理静态网页的内容提取。 ```python import requests from bs4 import BeautifulSoup def fetch_paper_info(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') title = soup.find('h1', class_='title').text.strip() # 假设标题标签样式如此 authors = ', '.join([author.text for author in soup.select('.authors a')]) # 获取作者列表 return { "Title": title, "Authors": authors } ``` 上述代码展示了如何定义函数`fetch_paper_info()`来获取指定URL页面中的论文题目和作者名单[^1]。 #### 利用Selenium应对JavaScript渲染的动态内容 当目标网站依赖大量JavaScript脚本来加载数据时,则可能需要借助像Selenium这样的工具模拟浏览器行为。这允许执行JavaScript从而获得完整的DOM树结构以便进一步的数据挖掘工作。 ```python from selenium import webdriver from selenium.webdriver.common.by import By driver = webdriver.Chrome() try: driver.get("http://example.com/paper-page") # 替换成实际链接 element = WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.CLASS_NAME , "paper-content")) ) finally: content = driver.page_source driver.quit() soup = BeautifulSoup(content, 'lxml') abstract = soup.find('div', {'class': 'abstract'}).get_text().strip() print(f'Abstract: {abstract}') ``` 这段示例说明了怎样设置Chrome WebDriver实例化对象,并等待特定条件满足后再继续操作;最后关闭浏览器进程释放资源[^2]。 #### 自动化生成GB/T 7714标准引用格式 针对中国国内高校普遍使用的GB/T 7714国家标准引用格式需求,可以通过正则表达式匹配所需字段并按照规定模板组合成字符串输出。 ```python import re def generate_gbt_citation(title, authors, year, journal_name=None, volume=None, issue=None, pages=None): pattern = r'\[(\d+)\]' cleaned_title = re.sub(pattern, '', title) formatted_authors = ';'.join(authors.split(',')) citation_parts = [ f"{formatted_authors}.", f"'{cleaned_title}'", f"[J].", # 表明这是期刊文章 f"{journal_name}," if journal_name else "", f"({year})", f"{volume}({issue}):" if all([volume, issue]) else "", f"{pages}" if pages else "" ] gbt_format = ''.join(part for part in citation_parts if part != "") return gbt_format ``` 此功能实现了基于给定参数构建符合GB/T 7714规范的参考文献条目[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值