![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析实践
文章平均质量分 83
埋在地里的小土豆
这个作者很懒,什么都没留下…
展开
-
论文数据分析-5(作者信息关联)
任务5:作者信息关联5.1 任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘5.2 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;5.3 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Gra原创 2021-01-25 23:59:35 · 356 阅读 · 0 评论 -
论文数据分析-4(论文种类分类)
任务4:论文种类分类这部分内容作者还没有完成,先放出来大家参考,作者会继续补充,不喜勿喷4.1 任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等4.3 文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGboost等思路2:FastTextFastText是入门款的词向量,利用F原创 2021-01-23 00:19:33 · 868 阅读 · 1 评论 -
论文数据分析-3(论文代码统计)
任务3:论文代码统计任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;import pandas as pd import numpy as npimport re import jsonimport matplotlib.pyplot as pltdata = []with open(r'arxiv-metadata-oai-2019.json','r') as f: for idx,l原创 2021-01-19 23:29:29 · 199 阅读 · 0 评论 -
论文数据分析-2(作者数据统计)
任务2:论文作者统计接着上一节继续,需要统计所有论文作者的信息,废话不多说,直接上代码。import numpy as npimport pandas as pdimport re import jsonimport matplotlib.pyplot as pltdata = []with open(r'arxiv-metadata-oai-2019.json', 'r') as f: for idx, line in enumerate(f): d = js原创 2021-01-17 00:27:05 · 387 阅读 · 0 评论 -
论文数据分析-1(论文数据统计)
这是在学习数据分析的一个实例,论文数据分析,这是第一部分,笔者刚学习此项内容,有问题大家提出来,不喜勿喷。任务1:论文数据统计11.1 任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目import pandas as pdimport numpy as npimport jsonim原创 2021-01-14 00:22:11 · 2134 阅读 · 1 评论