- 博客(7)
- 收藏
- 关注
原创 数据分析学习笔记
数据分析学习笔记数据分析学习笔记1、数据分析2、数据清洗2.1、数据读写2.2、 数据探索与描述2.3、 数据预处理2.3.1、数据简单处理去除空格英文字母大小写转换2.3.2、重复值的处理2.3.3、缺失值处理2.3.4、异常值处理2.3.5、文本字符串的处理2.3.6、时间格式序列的处理2.3.7 、数据提取与筛选2.3.8、数据排序2.3.9、 数据汇总数据分析学习笔记1、数据分析明确的分析目的就像是瞄准了正确的靶心,才能使后续的动作有意义。2、数据清洗数据清洗的步骤: 数据读写——数据
2021-02-23 00:15:01 541
原创 MySQL的联结使用
MySQL的联结使用1 前言2 联结的类型2.1 内部联结/等值联结(equijoin)2.2 自联结2.3 自然联结2.4 外部联结3 一些联结的注意事项1 前言本人在自学MySQL后刷题的过程中发现,自己对联结内容掌握的还不够熟练。通过翻看《MySQL必知必会》以及查阅相关资料后,形成以下总结,和大家共同学习。本人水平有限,有错误还请指正,非常感谢。2 联结的类型2.1 内部联结/等值联结(equijoin)内部联结(也称作等值联结)基于两个表之间的相等测试。内联结查询
2021-01-29 17:47:28 237
原创 数据分析学习——学术前沿趋势分析 任务5(作者信息关联)
数据分析学习——学术前沿趋势分析 任务5任务5:作者信息关联5.1任务说明5.2 数据处理步骤5.3 社交网络分析5.3.1 图类型5.3.2 图统计指标5.4 具体代码以及讲解任务5:作者信息关联5.1任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘5.2 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者和其他作者(论文非第一作者)构建图;
2021-01-24 22:59:35 375
原创 数据分析学习——学术前沿趋势分析 任务4(论文种类分类)
数据分析学习——学术前沿趋势分析 任务4任务4:论文种类分类4.1 任务说明4.2 数据处理步骤4.3 文本分类思路4.5 具体代码实现以及讲解4.5.1 思路1任务4:论文种类分类4.1 任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;4.2 数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:
2021-01-22 20:45:27 820 4
原创 数据分析学习——学术前沿趋势分析 任务3(论文代码统计)
数据分析学习——学术前沿趋势分析 任务3任务3: 论文代码统计3.1 任务说明3.2 数据处理步骤3.3 知识点详解3.3.1 正则表达式3.3.1.1 普通字符3.3.1.2 特殊字符3.3.1.3 限定符3.3.2 DataFrame数据集使用注意事项3.4 具体代码实现3.4.1 统计论文页数情况3.4.2 对论文图标进行统计3.4.3 统计GitHub代码连接数目任务3: 论文代码统计3.1 任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连
2021-01-19 18:24:24 762
原创 Datawhale数据分析学习——学术前沿趋势分析 任务1
任务1:论文数据统计1.1 任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目1.2 数据集介绍数据集来源:数据集链接;数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者;title:论文标题;comm
2021-01-13 20:47:54 778
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人