数据分析实战
文章平均质量分 84
数据分析相关实战项目
AnnoraJiao
这个作者很懒,什么都没留下…
展开
-
学术前沿趋势分析 Task5:作者信息关联
学术前沿趋势分析 Task5:作者信息关联一、任务说明二、任务思路图统计指标三、具体代码实现及解释1、导入数据2、创建作者链接的无向图一、任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘二、任务思路将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系。这里要用到复杂网络中图的知识:Graph原创 2021-01-25 11:01:29 · 153 阅读 · 0 评论 -
学术前沿趋势分析 Task4:论文种类分类
学术前沿趋势分析 Task4:论文种类分类一、任务说明二、任务思路三、具体代码实现及解释1、导入数据2、使用TF-IDF提取特征3、XGBoost模型4、深度学习方法一、任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;二、任务思路我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;选取title和abstract特征字段。对论文类别进行处理;构建文本分类原创 2021-01-22 13:53:33 · 402 阅读 · 0 评论 -
学术前沿趋势分析 Task3:论文代码统计
学术前沿趋势分析 Task3:论文代码统计一、任务说明二、任务思路二级目录三级目录一、任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;二、任务思路在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;二级目录三级目录...原创 2021-01-19 14:17:26 · 160 阅读 · 0 评论 -
学术前沿趋势分析 Task2:论文作者统计
学术前沿趋势分析 Task2:论文作者统计一、任务说明二、任务思路三、具体代码实现及解释1、导入数据2、作者统计1)统计所有作者姓名出现频率的Top102)统计所有作者姓的出现频率的Top10;3)统计所有作者姓第一个字符的评率;一、任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;二、任务思路首先导入数据集,只保留作者信息(authors,author原创 2021-01-15 20:36:16 · 198 阅读 · 2 评论 -
学术前沿趋势分析 Task1:论文数据统计
任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目数据及背景数据及来源:https://www.kaggle.com/Cornell-University/arxiv数据集格式如下:id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者原创 2021-01-13 09:57:10 · 495 阅读 · 0 评论