数据分析
文章平均质量分 84
疯子书生z
这个作者很懒,什么都没留下…
展开
-
心电图心跳信号多分类预测-EDA(二)
数据分析赛题:心电图心跳信号多分类预测2.1 EDA 目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。2.2 内容介绍载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy;可视化库 matplot原创 2021-03-16 17:00:33 · 892 阅读 · 1 评论 -
数据分析---arXiv作者信息关联
作者信息关联5.1 说明主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;内容:构建作者关系图,挖掘作者关系5.2 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;5.3 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图、旅游图、流程原创 2021-01-24 17:49:27 · 448 阅读 · 0 评论 -
数据分析---arXiv论文种类分类
论文种类分类4.1 任务说明主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;内容:使用论文标题完成类别分类;4.2 数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;4.3 文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGb原创 2021-01-21 11:22:28 · 1859 阅读 · 2 评论 -
数据分析---arXiv论文代码统计
论文代码统计目录论文代码统计3.1 说明3.2 数据处理步骤3.3 正则表达式3.3.1 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号3.3.2 特殊字符:有特殊含义的字符3.3.3 限定符3.4 具体代码实现以及讲解3.1 说明主题:论文代码统计,统计所有论文出现代码的相关统计;内容:使用正则表达式统计代码连接、页数和图表数据;3.2 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里原创 2021-01-16 15:42:19 · 1043 阅读 · 0 评论 -
数据分析---arXiv论文作者统计
任务2:论文作者统计2.1 任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;2.2 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\\'azs, E. L. Berger, P. M. Nadolsky原创 2021-01-15 13:26:59 · 366 阅读 · 0 评论 -
数据分析---arXiv论文数据统计
这里写目录标题1.论文数据统计1.1 任务说明1.2 数据集介绍1.3 arxiv论文类别介绍1.4 具体代码实现以及讲解1.4.1 导入package并读取原始数据1.4.2 数据预处理1.4.3 数据分析及可视化1.论文数据统计1.1 任务说明主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;内容:使用 Pandas 读取数据并进行统计;1.2 数据集介绍数据集来源:数据集链接;数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论原创 2021-01-10 09:19:32 · 2332 阅读 · 0 评论