【论文爬虫】零基础实现一键将论文详细信息直送notion并自动下载

输入论文标题,本爬虫将自动在semanticscholar.com和arxiv.com搜索该文章,自动获取其日期、作者、url、摘要等信息,并自动发送到你提前设置好的notion数据库里,同时自动从arxiv下载论文,然后将论文的保存地址在notion页面的address属性中展示

爬虫创建的notion页面展示

源码:https://github.com/WongYuetYee/PaperClipper

喜欢的点一个星星,有空会更新详细教程。
以下文章比较繁琐,是写给零基础读者看的,如果对python很熟悉,请直接查看源码的readme,节省你的时间。


0. Python及相关包的安装

Step-0.0 安装python

本爬虫基于python,如果电脑没有安装过python,可以在Microsoft Store里搜索python下载一下,如图所示:
Microsoft Store的安装页面
安装结束后打开命令提示行(win+R输入cmd),输入python,如出现以下内容,即安装成功。
在这里插入图片描述

Step-0.1 安装requests包

打开命令提示行(win+R输入cmd),输入pip3 install requests,安装时的显示如下。
在这里插入图片描述
安装完成后输入python,再输入import requests,如没有报错,显示如下,则表示成功安装:
在这里插入图片描述

1. Notion数据库的设置

Step-1.0 新建一个database页面

在Notion中新建一个database页面,下文中将默认该页面标题为Reference
打开我的模板页面并Duplicate到自己的数据库里,或者根据下面的表格手动设置相应的属性。如果只是想更改属性的名字,把代码里相应的属性名字做替换更改即可。后续有空的时候我会更新自定义属性的教程。
下面是目前支持爬取的属性,请务必保持自己页面含有下面的所有属性,否则会影响爬虫使用。

属性名字属性类别
NameTitle
URLURL
TLDRText
FormSelect
PublishedDate
DOIText
ArXivText
组织/团队/作者Text
开源代码Text
LocationText
ConfirmCheckbox

创建以后,在右上角点击Share,并点击Copy link,获取到一串形似以下字符串的链接:

https://www.notion.so/huangyer/d6d2651588e4473e970d53183d585870?v=cc500e0f66364db9841c96d6aa17d473&pvs=4

其中的加粗部分(即最后一个斜线之后、问号之前),就是你的这个数据库的id,请复制并保存下来。
在这里插入图片描述

Step-1.1 创建一个新的integration

https://www.notion.com/my-integrations中,选择+New integration,按喜好取名,如果有需要,可以上传图片选择自己喜爱的logo作为该integration的图标,点击Submit后,在Internal Integration Secret栏下点击show,并copy获取该integration的token,记录下来。

后期如果忘记可以再次进入此页面找到token,token意外泄漏也可以通过Refresh更换一个新的token。

在这里插入图片描述

Step-1.2 将integration连接到database

Step-0新建的database页面中,点击右上角的三个点按钮,找到最下方的Add Connection,找到并选择Step-1中创建的integration,并Confirm。
在这里插入图片描述

2. 脚本的更改(如果使用Quicker方法,此步可跳过)

Step-2.0 下载源代码

https://github.com/WongYuetYee/PaperClipper页面里下载ToNotion.py文件。
也可以新建一个txt文件,复制代码进去,再将该文件重命名为ToNotion.py

Step-2.1 更改源代码

打开ToNotion.py(win+Q搜索IDLE,打开该程序,点击File->open,选择你下载或新建的代码文件)。
在这里插入图片描述
打开代码后,点击Edit->Replace替换更改代码的两处(你也可以手动搜索并替换)。
你需要将$YOUR_DATABASE_ID$更换成你在Step-1.0中复制保存下来的数据库id,
再将$YOUR_INTEGRATION_TOKEN$更换成你在Step-1.1中复制保存下来的integration的token,
完成后保存代码即可。
在这里插入图片描述

3. 脚本的使用

Method-3.1 命令行中直接使用(麻烦)

Step-3.1.0 打开命令提示行

win+R输入cmd。

Step-3.1.1 输入cd /d E:

(此处E盘换成你存放了该脚本的盘符,若你存在C盘,则不需要此步骤)。

Step-3.1.2 输入python "脚本完整地址" "需要搜索的论文标题" "保存论文文件的目录"

注意,本脚本使用的是精确搜索,因此只有当你输入的标题与搜索到的论文标题完全相同,才会视为搜索成功并返回结果。
在这里插入图片描述

Method-3.2 在脚本目录中打开powershell(较麻烦)

Step-3.2.0 打开脚本所在目录

Step-3.2.1 在目录空白位置按住shift+右键点击在此处打开Powershell窗口

在这里插入图片描述

Step-3.2.2 输入python .\ToNotion.py "Paper_Title" "Download_Path"

Method-3.3 联合Quicker,实现鼠标划词收录(最推荐)

Step-3.3.0 安装Quicker

Quicker官网
对本文实现的功能,免费版可以完全支持。
喜欢quicker的朋友,如果打算充值会员,可以使用我的邀请码231933-9062,我们都能免费获得额外的90天专业版使用时长。我在notion里写了一个页面,简单介绍了个人非常喜欢的文字指令功能。

Step-3.3.1 安装动作ToNotion

动作ToNotion地址
按照页面的指示安装动作即可。

Step-3.3.2 使用动作ToNotion

选择论文标题,呼出quicker面板,点击ToNotion动作。
请添加图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值