【科学文献计量】利用pybibx分析Scopus文献数据集（EDA,N-Grams,Cluster,Network analysis,NLP）

lys_828

已于 2023-10-11 14:42:57 修改

阅读量1.4k

点赞数 1

分类专栏： python科学计量数据可视化文章标签： N-Grams 主题模型摘要提取知识图谱文献聚类

于 2023-10-11 14:41:33 首次发布

本文链接：https://blog.csdn.net/lys_828/article/details/133754558

版权

python科学计量数据可视化专栏收录该内容

60 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文档详细介绍了如何利用pybibx库对Scopus文献数据进行探索式数据分析（EDA）、N-Grams可视化、文献聚类和网络可视化，包括词云图、桑基图、树图和作者生产力分析。通过NLP技术进行主题模型和摘要总结，展示了预训练模型、ChatGPT-4和BERT的摘要生成效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

利用pybibx分析Scopus文献数据集

1 运行前准备
- 1.1 数据集
- 1.2 前置库
2 加载库
3 数据导入
4 探索式数据分析，即EDA
5 网络可视化
6 NLP
7 文献数据筛选
8 文献数据订正

手动反爬虫：原博地址 https://blog.csdn.net/lys_828/article/details/133754558

 知识梳理不易，请尊重劳动成果，文章仅发布在CSDN网站上，在其他网站看到该博文均属于未经作者授权的恶意爬取信息
 
 欢迎交流
 作者邮箱：xianl828@163.com
 微信：lys_828

1 运行前准备

1.1 数据集

Scopus数据格式需要为bib格式，文件放置在assets文件夹下的bibs数据文件夹中
在这里插入图片描述

1.2 前置库

numpy的版本需要小于1.25

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lys_828

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

【科学文献计量】pybibx模块安装与使用

lys_828的博客

10-08

1490

文献计量学和科学计量学分析为复杂的研究领域和跨越不同学科的合作动态提供了宝贵的视角。本文介绍了pyBibX，这是一个python库，用于对来自Scopus , Web of Science和PubMed的原始数据文件进行全面的文献计量和科学计量分析，并将最先进的AI功能无缝集成到其核心功能中。该模块执行一个全面的EDA，通过视觉上吸引人的图形插图呈现结果。网络功能已被巧妙地集成，包括引用、协作和相似度分析。

【科学文献计量】使用pybibx对自己的文献数据集进行分析的模板整理

lys_828的博客

10-12

473

介绍使用pybibx库对个人数据进行文献分析的模板代码

参与评论您还未登录，请先登录后发表或查看评论

COLING 2022 | CSL-大规模中文科学文献数据集

Paper weekly

09-29

1724

©PaperWeekly 原创 ·作者 |李煜东单位 |深圳大学研究方向 |多模态机器学习论文 CSL: A Large-scale Chinese Scientific Literature Dataset 发表在自然语言处理顶会 COLING 2022 上，由中国地质大学（北京）、深圳大学和腾讯 AI Lab 合作完成。该工作提出了首个中文科学文献数据集-CSL，包含约 40 万条中...

文献数据库介绍

热铁皮屋上的猫的博客

01-14

968

Association for Computing Machinery(ACM) ACM期刊全文数据库（信息计算机领域）直接导入 American Society of Mechanical Engineer 美国机械工程数据库直接导入EndNote。 Elsevier SciVerse SDOS EJOS 直接导入 SpringerLink 电子期刊数据库直接导入 Web of Kno...

文献计量学分析实战（2）——pyBibx

weixin_49320263的博客

02-03

1986

文献计量学分析实战（2）——pyBibx

如何查阅资料？（找数据集，文献...）

Drug discovery

10-16

1万+

首先我们使用谷歌：用中文搜索风景图数据集 然后我发现并没有我想要，或者是说我想要的资料很少，那我我应该怎么做呢？然后我使用英文搜索：Landspace dataset，就搜索到了很多数据，其中有了我想要的东西为什么会这样？当你使用中文搜索的时候，就会搜索到的结果是中国的，那么我用英语搜索，那么得到的便可能是整个世界上有用的数据。 ...

【科学文献计量】pybibx论文原文精读与对照翻译

lys_828的博客

10-08

1802

文献计量和科学计量分析为复杂的研究领域和跨不同学科的协作动态提供了宝贵的视角。本文介绍了 pyBibX，这是一个 Python 库，旨在对来自 Scopus、Web of Science 和 PubMed 的原始数据文件进行全面的文献计量和科学计量分析，将最先进的人工智能 (AI) 功能无缝集成到其核心功能中。pyBibX可执行全面的探索性数据分析 (EDA)，通过视觉上吸引人的图形插图呈现结果。网络功能已被巧妙地集成，包括引文、协作和相似性分析。

【科学文献计量】剔除来自unknown的机构与作者文献文献——数据清洗

lys_828的博客

04-11

351

有时在研究过程中，会遇到不同类型的文献，但是有些文献中的数据会有部分缺失，常见的比如机构，作者和年份等字段，因此为了使用科研工具进行有效的文献计量，数据清洗就显着十分重要

【科学文献计量】将Endnote中的文献读入python中进行数据分析，并顺便将结果保存为Excel文件，并封装函数直接调用

lys_828的博客

05-07

1411

将Endnote中的文献读入python中进行数据分析，并顺便将结果保存为Excel文件1 需求2 功能完成2.1 文献下载2.2 文献导入到Endnote2.3 文献导出2.4 文件加载到python中2.5 数据提取2.6 数据简单分析2.7 顺便导出到Excel文件中3 函数封装 1 需求在进行文献批量下载导出到Endnote中后，虽然方便我们进行文献的管理以及后续的参考文献的插入，但是对于文献的分析却没有办法直接在Endnote中进行，因此就有需求对于保存在Endnote中的文献读入到pytho

人工智能文献计量与可视化分析

12-04

摘要：真正意义上的人工智能诞生到今天不过百年,然而人工智能技术与我们的日常生活中早已密不可分,小到手机智能语音大到工厂中的制造器人,都能看到人工智能技术的影子。本文将以科学计量学与引文分析法为理论指导,将Web of Science数据库收录的人工智能领域的文献为研究对象,并使用CiteSpace软件系统制作可视化图谱、数据统计表格,对2010年至2019年国际人工智能研究领域规律和发展状况等进行分析,通过这一新视角来研究人工智能的发展规律与现状,希望能为我国人工智能发展提供有力的经验建议。关键词：科学计量;引文分析法:人工智能;科学技术知识;期刊文献;

TEMAC：文献计量方法：整合荟萃分析的理论

02-18

天马 文献计量学方法：合并荟萃分析理论

多分类—微调DistilBERT对生物医学文本进行实验方法多分类：Automated Text Mining of Experimental Methodologies from Biomedical

热门推荐

人工智能算法与工程实践

09-22

2万+

Microsoft COCO Captions、SBU Captions、Conceptual Captions (CC) dataset、TextCaps、VizWiz-Captions、Localized Narratives、Nocaps等

python文献计量_你是否还在为文献综述头大？科学计量给你来支招

weixin_39773158的博客

12-02

1795

在这炎炎夏日和绵绵雨季中，大多数研究生不仅受到湿热夹击，可能还有面对开题或准备开题的压力。研究开题是开展研究的必经之路，所谓万事开头难，那么，有什么小神器能助力我们开个好头，旗开得胜呢？按张林老师所说，一个研究开题要回答三个问题：1、研究问题，研究什么问题；2、研究意义，研究有什么价值和创新性；3、研究设计的可行性，研究设计是否能解决研究问题。无论是研究问题、意义还是研究设计都绕不开研究现状...

【科学文献计量】CNKI文献Endnote格式数据采集，转化为python中的DataFrame格式，提取算法优化

lys_828的博客

05-25

391

1 问题今天在进行文献处理的过程中，发现有些文献导出来是的格式有些问题，如下这种现象出现在早期的一些文献中，因此按照原来的方法进行数据的提取，会发现出现很多多余的数据，如下 2 问题解决之前的封装的函数 def cnki_to_df(folder_path): import pandas as pd import os ls_data = [] for file in os.listdir(folder_path): abs_path = os.p

利用爬虫自动计算知网文献引用次数的杰卡德相似性指数

weixin_44873868的博客

12-22

564

一。背景介绍 Jaccard相似指数用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集的元素个数，值为0表示无相关性，值为1表示完全一致。对于两篇论文a和b来说，如果用A表示a的被引用次数，用B表示b的被引用次数，则AB的杰卡德相似指数为：从而，如果需要得到AB的杰卡德相似指数，我们只需要知道A、B以及a和b的共引用次数，其中A或者B可以通过知网的这个...

NLP学习规划

咖乐部

11-18

349

前几周看了文本分类的CNN和RNN模型，经常遇到嵌入，和Word embedding这个东西，所以这两周就去看word2vec，但是看论文的时候，总是看不懂，并且看的很慢，看了又忘。我最终的任务可能是生成类的任务，但是我想对于一些其他的任务有所了解，或者说，从简单的入手。看了Word2vec，并没有很好地理解它，不知道该怎么去弄懂做这个任务的缘由，和这个任务的作用。然后本周按计划去看命名实体识别，同样，在看论文的时候，很慢，看不懂，看了又忘，不知道这个做任务的缘由和作用。感觉自己很难通过论文

python计量实证分析_Python学术系列丨Python编程基础专题

weixin_39520869的博客

02-21

809

【授课老师】陈远祥，北京邮电大学副教授。2014年毕业于北京大学，获通信与信息系统专业博士学位，2015年-2017年在北京大学做博士后研究。主要研究方向包括光无线融合技术，智能信号处理，以及基于人工智能的信号处理技术。发表SCI/EI学术论文80余篇，其中第一或通讯作者论文40余篇，申请发明专利4项。主持国家自然科学基金面上项目，国家重点研发计划子课题，国家自然科学基金青年项目及博士后基金等多个...