![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python
文章平均质量分 64
python_learn
星星点灯er
这个作者很懒,什么都没留下…
展开
-
BibtextParser API使用小结
BibtexParser官方文档:https://bibtexparser.readthedocs.io/en/master/简介bibtex格式的文本的解析工具。文本为标准的bibtex格式bibtex = """@ARTICLE{Cesar2013, author = {Jean César}, title = {An amazing title}, year = {2013}, volume = {12}, pages = {12--23}, journal = {N原创 2021-01-27 19:47:48 · 799 阅读 · 0 评论 -
Python基础
python版本信息Cpython:C语言写成;执行代码时,python代码会被转化为字节码;Cpython是一个字节码解释器。PyPy:由python写成的解释器;解释器的代码会先转化成C,然后再变异;比Cpython性能更好。因为Cpython把代码转化成字节码,PyPy把代码转化成机器码。机器码(machine code),学名机器语言指令,有时也被称为原生码(Native Code),是电脑的CPU可直接解读的数据。字节码(Bytecode)是一种包含执行程序、由一序列 op 代码/数据原创 2021-01-03 13:30:19 · 282 阅读 · 0 评论 -
使用Scrapy根据DOI下载文献到本地
使用Scrapy根据DOI下载文献到本地Scrapy框架专门提供了用于文件下载的FilesPipline和用于图片下载的ImagePipline爬取策略从Mysql数据库中提取DOI号拼接url:‘http://www.sci-hub.ren/’+doi 指向doi对应的pdf页面在该页面中通过xpath和正则表达式,将指向pdf的url提取出来,交付给pipline进行下载具体步骤设置setting.py# setting.py# 框架自动生成无需修改BOT_NAME = 'Doi原创 2020-09-19 19:42:56 · 870 阅读 · 0 评论 -
初识Scrapy
初识Scrapy框架之前学习的requests和selenium,它们基本上已经可以满足绝大部分的爬虫需求了。但是,在使用这两个模块的时候,往往会出现爬取效率低的情况,处理的事物多的时候多线程写起来比较麻烦。scrapy给我最大的感受就是可以使我们更便捷地写出高质量的爬虫程序。Scrapy简介Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它使用来Twisted异步网络框架,提高了爬取效率。很多东西框架已经写好,我们可以不用修改或者稍做修改,就可以使用,进而提高了写爬虫程序的效率。原创 2020-09-19 19:43:59 · 235 阅读 · 0 评论