自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Datawhale之动手学数据分析第三章

1.特征工程1.1缺失值填充对分类变量缺失值:填充某个缺失值字符(NA)、用最多类别的进行填充 对连续变量缺失值:填充均值、中位数、众数#对分类变量进行填充train['Cabin'] = train['Cabin'].fillna('NA') train['Embarked'] = train['Embarked'].fillna('S')# 对连续变量进行填充train['Age'] = train['Age'].fillna(train['Age'].mean())# ...

2020-08-25 20:05:02 150

原创 DW数据挖掘学习总结

主要收获:可视化基础更加坚固并可以根据图来解释 对时间序列模型及分解有了初步的认识 对特征处理与选择的重要性和基础已经明白 学会了根据周期因子预测接下来一段时间的数据 学习了利用机器学习算法来构建预测模型后续学习目标:在复现的基础上有更好的idea 对用到的模型和算法要更加熟练的运用 在小组及群里获得优秀资料要充分利用,相互学习...

2020-08-25 19:49:57 251

原创 DW数据挖掘学习(三)

1.时间序列预测模型1.1时间序列分解1.1.1归纳为四大类因素的综合影响 长期趋势(trend):会导致序列出现明显的长期趋势 循环波动(circle):会导致序列呈现出周期性波动 季节性变化(season): 会导致序列呈现出和季节变化相关的稳定的周期波动,季节变动视为一种特殊的循环波动 随机波动(immediate): 纯随机、与时间无关1.1.2结构分解时间序列加法模型 ????????=????????+????????+????????+????

2020-08-25 19:43:16 486

原创 Datawhale之动手学数据分析第二章(三)

数据可视化import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#导入result.csv这个文件text=pd.read_csv(r'result.csv')1.柱状图展示数据集中男女生存人数分布情况sex = text.groupby('Sex')['Survived'].sum() sex.plot.bar()plt.title('survived_count')plt.show()2.柱

2020-08-25 18:51:08 114

原创 Datawhale之动手学数据分析第二章(二)

数据重构1.数据的合并1.1对比数据的不同1.2使用concat方法:将数据横向合并为一张表list_up = [text_left_up,text_right_up] result_up = pd.concat(list_up,axis=1) result_up.head()1.3使用concat方法:将数据纵向合并为一张表list_down=[text_left_down,text_right_down] result_down = pd.concat(list_dow

2020-08-23 20:56:33 174

原创 DW数据挖掘学习(二)

1.时间序列规则1.1为什么重视规则 简单、高效、可解释性强1.2中位数、临近数据等简单统计量中位数:稳健 均值:当分布较符合正态分布时 临近数据:临待预测数据较近的数据1.3基于周期因子的时间序列预测1.3.1获得周期因子除以周均值 ,然后按列取中位数 季节指数的计算方式;获得每日(工作日或周末)均值,再除以整体均值 1.3.2预测1.3.1中的中位数乘以base(最后一周的平均客流)中位数乘以base(去周期后的平均客流)...

2020-08-22 20:08:29 227

原创 Datawhale之动手学数据分析第二章(一)

1.数据清洗简述1.1缺失值观察方法一 df.info() 方法二 df.isnull().sum() 1.2缺失值处理方法一:删除方法二:保留 df['name'].fillna(0) #不用函数的保留方法 对缺失值进行0填充df[df['Age']==None] = 0df[df['Age'].isnull()] = 0df[df['Age'] == np.nan] = 0 1.3重复值观察df[df.dupli...

2020-08-20 17:43:48 223

原创 DW数据挖掘学习(一)

0.赛题理解场景:蚂蚁金服每天需要处理大量的资金流入和流出 条件:为了资金流动的风险达到最低,同时保证每天的正常业务运转 目标:精准预测未来每日的资金流入流出情况 数据:用户基本信息数据、用户申购赎回数据、收益率表、银行间拆借利率表1.数据探索准备1.1时间序列图# 画出每日总购买与赎回量的时间序列图fig = plt.figure(figsize=(20,6))#表示figure的大小为长、宽(单位为inch)plt.plot(total_balance['date'],tot

2020-08-20 16:21:41 410

原创 Datawhale之动手学数据分析第一章

Datawhale之动手学数据分析第一章0.载入数据Step1:导入numpy&pandas库Step2:载入数据方式 相对路径:必须在同一文件下;绝对路径:在终端内可知 语句 number代表逐步读取的数量 pd.read_csv('filename.csv',chunksize=number) 意为将名为filename的数据集里的表头按顺序改为No.x,并以No.1为索引。 pd.read_csv('filename.csv',nam...

2020-08-19 21:54:41 210

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除