python下载论文pdf_Python实现一个论文下载器

最新推荐文章于 2024-08-31 09:24:26 发布

树林同学

最新推荐文章于 2024-08-31 09:24:26 发布

阅读量197

点赞数

文章标签： python下载论文pdf

本文链接：https://blog.csdn.net/weixin_34183908/article/details/113648201

版权

该博客介绍了如何使用Python编写一个简单的论文下载器。通过发送POST请求到sci-hub.ren网站，搜索并获取论文的PDF链接。

摘要由CSDN通过智能技术生成

def search_article(artName):

‘’’

搜索论文

---------------

输入：论文名

---------------

输出：搜索结果(如果没有返回""，否则返回PDF链接)

‘’’

url = ‘https://www.sci-hub.ren/’

headers = {‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:84.0) Gecko/20100101 Firefox/84.0’,

‘Accept’:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8’,

‘Accept-Language’:‘zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2’,

‘Accept-Encoding’:‘gzip, deflate, br’,

‘Content-Type’:‘application/x-www-form-urlencoded’,

‘Content-Length’:‘123’,

‘Origin’:‘https://www.sci-hub.ren’,

‘Connection’:‘keep-alive’,

‘Upgrade-Insecure-Requests’:‘1’}

data = {‘sci-hub-plugin-check’:’’,

‘request’:artName}

res = requests.post(url, headers=headers, data=data)http://www.yezidianjing.com/

html = res.text

soup = BeautifulSoup(html, ‘html.parser’)

iframe = soup.find(id=‘pdf’)

if iframe == None: # 未找到相应文章

return ‘’

else:

downUrl = iframe[‘src’]

if ‘http’ not in downUrl:

downUrl = ‘https:’+downUrl

return downUrl

原文链接:https://blog.csdn.net/yezikeji/article/details/112764408

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

树林同学

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬虫（13）-爬虫爬取CVPR+ICCV+ECCV期刊论文自动下载PDF保存文件中（科研党福利）

qq_42754919的博客

10-29

2922

文章目录1.分析网页2.分析ECCV期刊页面3.爬取ECCV期刊代码4.爬取ICCV期刊代码5.爬取CVPR期刊代码6.结果展示最近导师叫我下载CVPR，ICCV，ECCV会议论文，发现每个期刊都有好几百篇论文。一个一个点击非常耗费时间，正好在学习爬虫，利用爬虫抓取一下网页。完成老师分配的任务之后将这个代码分享出来，供大家使用和学习，解决下载论文的烦恼。毕竟科技的进步就是使人懒惰，哈哈哈运行速度和每个人的网速有关，可以先在浏览器中下载一个论文，测一下网速，网速慢的话建议搭载VPN，也有部分论文内存很大

Python实现将pdf，docx，xls，doc，wps，zip，xlsx，ofd链接下载并将文件保存到本地

Python进阶专栏《爬虫实战进阶》，《数据分析入门与实战》原创作者

07-14

3621

本文是该专栏的第31篇，后面会持续分享python的各种干货知识，值得关注。在工作上，尤其是在处理爬虫项目中，会遇到这样的需求。访问某个网页或者在采集某个页面的时候，正文部分含有docx，或pdf，或xls，或doc，或wps等链接。需要你使用python自动将页面上含有的这些信息链接下载并保存到指定文件夹。遇到这种情况需要怎么做呢？别担心，跟着笔者直接往下看正文的详细解决方法。（附完整代码）在有些网页的正文中，有时会有如下图中的doc链接。比如爬虫在采集正文数据的时候，像标题，正文内容，作者，发布时间等等

参与评论您还未登录，请先登录后发表或查看评论

利用python下载scihub成文献为PDF操作

09-16

主要介绍了利用python下载scihub成文献为PDF操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python简介pdf_PDFMiner首页、文档和下载 - Python PDF 解析器 - OSCHINA - 中文开源技术交流社区...

weixin_39653078的博客

11-23

PDFMiner 是一个 Python 的 PDF 解析器，可以从 PDF 文档中提取信息。与其他 PDF 相关的工具不同，它侧重的是获取和分析文本数据。PDFMiner 允许获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个 PDF 转换器，可以把 PDF 文件转换成 HTML 等格式。还有一个扩展的 PDF 解析器，可以用于除文本分析以外的其他用途。特性完全用 Python 编写...

scihub2pdf 使用教程

最新发布

gitblog_00811的博客

08-31

473

scihub2pdf 使用教程 scihub2pdfDownloads pdfs via a DOI number, article title or a bibtex file, using the database of libgen(sci-hub) , arxiv项目地址:https://gitcode.com/gh_mirrors/sc/scihub2pdf 项目介绍 scihub2p...

python通过接口调用的方式进行批量下载PDF文件

u013446615的博客

01-17

1223

实际工作过程中遇到一个需要批量下载PDF文件的需求，自己通过python代码进行下载和保存，代码如下： import re import requests import json import time def require_plan_list(): #获取计划的列表接口信息 url=‘https://域名/gr/fms/queryMaintenancePlanByPage’#获取计划的列表接口信息 #请求头设置 headers={‘content-type’:‘application/json’,‘Au

python自动下载论文_教你如何利用Python批量下载论文

weixin_42349182的博客

02-04

6208

❝微信公众号：「Python干货铺子」关注即可开启快乐学习Python和Matlab的大门，您还在犹豫什么~❞前言❝某个夜深人静的夜晚，夜微凉风微扬，月光照进我的书房~ 当我打开文件夹以回顾往事之余，惊现许多看似杂乱的无聊代码。我拍腿正坐，一个想法油然而生：“生活已然很无聊，不如再无聊些叭”。于是，我决定开一个专题，便称之为kimol君的无聊小发明。妙......啊~~~❞❝「一点点题外话」：首先...

python爬取知网论文pdf_爬取博主的所有文章并保存为PDF文件

weixin_39997037的博客

12-06

775

继续改进上一个项目，上次我们爬取了所有文章，但是保存为TXT文件，查看不方便，而且还无法保存文章中的代码和图片。所以这次保存为PDF文件，方便查看。需要的工具：1、wkhtmltopdf安装包，下载并安装到电脑上，可使用 pip安装，注意环境变量的配置。具体参见下面的资料。2、pdfkit文件(whl文件)，下载并安装到pycharm上。注意安装whl文件时：最好吧把保存whl文件的...

Python实现一个论文下载器

weixin_46737755的博客

01-15

3714

python 批量下载知网(cnki)论文_Python 实现 CNKI批量下载和FireFox Extension 入门学习笔记...

weixin_39614546的博客

12-19

1108

‍Python 实现 CNKI批量下载和FireFox Extension 入门学习笔记‍由于需要也是为了督促自己学习新的东西，我原本想要尝试着写一个爬虫程序，能够在cnki上自动得将论文进行批量下载，学习过程中遇到了诸多情况，cnki也真是专业，不得不佩服cnki的强大。下面进入正题：学习、实验环境：ubuntu 14.04工具：Eclipse，FireFox，FireBug，HttpFox编...

python的知网caj格式转pdf

12-09

`PyPDF2`是一个纯Python库，用于读取、操作和写入PDF文件，提供了丰富的API接口，可以用来分割、合并、加密和解密PDF文档，但不支持CAJ格式，所以需要额外的处理。要使用`caj2pdf`，首先你需要确保已经安装了必要...

批量下载PDF，python源码

02-25

python源码，批量下载PDF，让你的工作不在发愁，提高效率

SciHub下载神器，基于爬虫原理

06-25

Sci_Hub下载文献专用小软件，基于爬虫理论，已实际验证，很强大

Python-SciHubEVA是一个跨平台的SciHub界面化应用

08-12

Sci-Hub EVA 是一个跨平台的 Sci-Hub 界面化应用

Python3 批量下载并保存PDF文件

qq_38101454的博客

03-13

2460

Python3 批量下载并保存PDF文件 from urllib.request import urlopen from bs4 import BeautifulSoup import requests url = 'PDF列表地址' html = urlopen(url) bs = BeautifulSoup(html, 'html.parser') # 使用bs.findAll()方法获取所有PDF链接 linkList = bs.findAll('a',{'class':'classname'})

批量下载文档有救了：Python下载某网站文档保存PDF

xff123456_的博客

03-20

1251

已经码得很厚了，审核给过吧....

利用python下载scihub成文献为PDF

大鱼的博客

03-07

7341

scihub是科研利器，这就不多说了，白嫖文献的法门，一般采用的是网页或者桌面程序，一般都会跳转到网页进行加载出文献，但是这很不方便，毕竟全手动，这里无意中看到一个写好的pip工具scihub2pdf，于是试一下它手动威力，如果这能够成功，也就是我们以后如果想批量下载也是没问题的。 1.首先我们得安装它： pip install scihub2pdf 2.紧接着安装npm和pha...

python实现论文下载器

TomorrowNeverKnows

12-29

582

（一）网页爬虫，获取文章doi （1）csv对象 # 1. 创建文件对象 f = open('D:\\kon_data\\ase.csv','w',newline="",encoding='utf-8') csv_writer = csv.writer(f) # 2. 构建列表头 csv_writer.writerow(["会议","年份","论文集","论文名称","doi"]) # 3. 写入记录 csv_writer.writerow([conf, m_year, m_set,m_name,m_doi

Python超市管理系统设计实现与论文文档源码

资源摘要信息: "基于python的超市管理系统的设计与实现毕业论文+项目文档源码" 本资源是一套全面的超市管理系统设计与实现的资料包，包含完整的项目代码、设计文档以及毕业论文。该系统采用Python语言进行开发，并...