自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 数据分析5

这里写目录标题任务说明数据处理步骤社交网格分析图类型图指标统计具体代码以及讲解任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;社交网格分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每

2021-01-23 17:32:44 87

原创 数据分析4

论文种类分类任务说明数据处理步骤文本分类思路具体代码实现以及讲解思路1思路2任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;文本分类思路思路1:TF-IDF+机器学习分类

2021-01-22 21:58:18 85

原创 数据分析3

论文代码统计任务说明数据处理步骤正则表达式普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号特殊字符:有特殊含义的字符限定符具体代码实现以及讲解任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表

2021-01-19 13:58:48 84

原创 数据分析2

任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;当然在原始数据集中authors_parsed字段已经帮我们处理好了作者信息,可以直接使用该字段完成后

2021-01-14 16:50:36 104

原创 Pandas大综合

这里写目录标题任务四--显卡日志任务五--水压站点的特征工程任务四和五的问题描述见http://datawhale.club/t/topic/579/7由于时间太匆忙,就先放代码,后面再给详细解释~任务四–显卡日志解答// An highlighted blockimport numpy as npimport pandas as pddf=pd.read_table('benchmark.txt', header=None)# 取出Benchmarking #2# #4# precis

2021-01-13 23:28:13 121

原创 数据分析1

论文数据统计任务说明数据集介绍arxiv论文类别介绍具体代码实现导入package并读取原始数据数据预处理数据分析及可视化任务说明-任务说明任务主题:论文数量统计,即统计2019年全年Statistics各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目https://github.com/datawhalechina/joyful-pandas

2021-01-13 19:24:38 196

原创 Datawhale学习记录10

Pandas时序数据时序中的基本对象时间戳TimestampDatetimedt对象时间戳的切片与索引时间差Timedelta的生成Timedelta的运算日期偏置Offset对象偏置字符串时序中的滑窗与分组滑动窗口重采样练习EX1:太阳辐射数据集EX2:水果销量数据集三级目录时序中的基本对象时间戳TimestampDatetimedt对象时间戳的切片与索引时间差Timedelta的生成Timedelta的运算日期偏置Offset对象偏置字符串时序中的滑窗与分组滑动窗口重采样

2021-01-10 19:17:29 111

原创 Datawhale学习记录9

Pandas分类数据cat对象cat对象的属性类别的增加、删除和修改有序分类序的建立排序和比较区间类别利用cut和qcut进行区间构造一般区间的构造区间的属性与方法练习二级目录三级目录cat对象cat对象的属性类别的增加、删除和修改有序分类序的建立排序和比较区间类别利用cut和qcut进行区间构造一般区间的构造区间的属性与方法练习二级目录三级目录...

2021-01-07 21:51:43 80

原创 Datawhale学习记录8

Pandas文本数据str对象str对象的设计意图索引器string类型正则表达式基础一般字符的匹配元字符基础简写字符集文本处理的五类操作拆分合并匹配替换提取常用字符串函数字母型函数数值型函数统计型函数合适型函数练习EX1:房屋信息数据集EX2:《权力的游戏》剧本数据集三级目录str对象str对象的设计意图索引器string类型正则表达式基础一般字符的匹配元字符基础简写字符集文本处理的五类操作拆分合并匹配替换提取常用字符串函数字母型函数数值型函数统计型函数合适型函数练

2021-01-06 14:26:33 141 1

原创 Datawhale学习记录7

Pandas缺失数据缺失值的统计和删除缺失信息的统计缺失信息的删除缺失值的填充和插值利用fillna进行填充插值函数Nullable类型缺失记号及其缺陷Nullable类型的性质缺失数据的计算和分组练习EX1:缺失值与类别的相关性检验EX2:用回归模型解决分类问题三级目录缺失值的统计和删除缺失信息的统计缺失信息的删除缺失值的填充和插值利用fillna进行填充插值函数Nullable类型缺失记号及其缺陷Nullable类型的性质缺失数据的计算和分组练习EX1:缺失值与类别的相关性检验

2021-01-03 16:26:52 103 1

原创 Datawhale中期考核

PandasTask1企业收入的多样性Task2组队学习信息表的变换Task3美国大选投票情况题目内容http://datawhale.club/t/topic/579/4Task1企业收入的多样性代码// An highlighted blockimport pandas as pdimport numpy as npdf1 = pd.read_csv('company.csv')df2 = pd.read_csv('company_data.csv')df1.head(5)df2

2021-01-01 22:45:47 162

原创 Datawhale学习记录6

Pandas连接关系型连接连接的基本概念值连接索引连接方向连接concat序列与表的合并类连接操作比较组合练习EX1:美国疫情数据集EX2: 实现join函数关系型连接连接的基本概念值连接索引连接方向连接concat序列与表的合并类连接操作比较组合练习EX1:美国疫情数据集EX2: 实现join函数...

2020-12-29 19:50:12 118 1

原创 Datawhale学习记录5

Pandas变形长宽表的变形pivotpivot_tablemeltwide_to_long索引的变形stack与unstack聚合与变形的关系其他变形函数crosstabexplodeget_dummies练习EX1:美国非法药物数据集EX2:特殊的wide_to_long方法长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。pivot

2020-12-27 15:05:13 160

原创 Datawhale学习记录4

这里写目录标题分组分组模式及其对象分组的一般模式分组依据的本质Groupby对象分组的三大操作------聚合、变换和过滤聚合函数内置聚合函数agg方法变换和过滤变换函数与transform方法组索引与过滤跨列分组---apply练习EX1:汽车数据集EX2:实现transform函数总结分组分组模式及其对象分组的一般模式df.groupby(分组依据)[数据来源].使用操作// A code blockdf.groupby('Gender')['Height'].median()// An

2020-12-25 21:00:14 116

原创 Datawhale学习记录3

Pandas索引器表的列索引序列的行索引loc索引器iloc索引器query方法随机抽样三级目录多级索引IndexSlice对象多级索引的构造索引的常用方法索引层的交换和删除索引属性的修改索引的设置与重置索引的变形索引运算练习结语索引器表的列索引列索引是最常见的索引形式,一般通过[]来实现。通过[列名]可以从DataFrame中取出相应的列,返回值为Series,例如从表中取出姓名一列下面展示一些 内联代码片。// A code blockdf = pd.read_csv('../data/le

2020-12-22 22:36:30 90

原创 Dataehale学习记录2

Dataehale学习记录2Pandas数据的读取和写入Pandas的数据结构Pandas常用基本函数练习结语Pandas数据的读取和写入可以读取csv,txt,excel.相应的有一些参数的设置,header=None表示第一行不作为列名,index_col表示把某一列或几列作为索引,索引的内容将会在第三章进行详述,usecols表示读取列的集合,默认读取所有的列,parse_dates表示需要转化为时间的列,nrows表示读取的数据行数。在下面三个函数中均可以使用df_csv = pd.read

2020-12-19 22:30:15 113 1

原创 Datawhale学习记录1

PandasTask01python基础Part01Part02Part03Numpy基础Part01Part02Part03Part04Part05Part06练习Task01python基础这一部分主要分成三个小节Part01第一部分是列表推导式与条件赋值,作者写的都是满直观的,最后写个简单的例子下面展示一些 内联代码片。// 截断列表中超过14的元素,超过14就输出100L=[1,2,3,4,5,6,11,23,14,15,16,19][i if i <=14 else 100

2020-12-16 20:55:06 139 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除