![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
M.〽
这个作者很懒,什么都没留下…
展开
-
Kaggle泰坦尼克号预测——Last
整理了一下全部流程,写成了一个ipynb文件导入数据集import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')##载入数据集data_path = 'D:/Now/Titanic/'train_data = pd.read_csv(data_path + 'train.原创 2020-08-28 18:46:19 · 339 阅读 · 0 评论 -
时间序列 —— task06
学习总结时间序列规则https://www.jianshu.com/p/31e20f00c26f(时间序列规则法快速入门)这篇文章的确较为清晰易懂。感觉规则就像是特征,提取的特征越好,越准确,预测的效果就会越好。就类似于做特征工程。时间序列模型这章学习的很痛苦,要求有一定程度的数理统计基础,虽然刚上完数理统计的课,但是对于模型的理解还是要不断地查资料。然而到现在还是没能搞懂全部模型,只能理解个大概。ARMA模型:学习这个模型,可以看看知乎作者Jack Lee的几篇文章,B站视频AR原创 2020-08-25 23:22:35 · 129 阅读 · 0 评论 -
Kaggle泰坦尼克号 数据可视化
matplotlibpython优秀的数据可视化的第三方库matplotlib库由各种可视化类构成,内部结构复杂,受MATLAB启发。matplotlib.pyplot是绘制各类可视化图形的命令字库,相当于快捷方式。import matplotlib.pyplot as pltplt.plot() 当输入的参数只有一个列表时,会将这个列表当做Y轴处理。X轴是该列表的索引,自动生成。当有两个以上参数时,按照X轴和Y轴顺序绘制数据点。plt.savefig() 将输出图形存储为文件,默原创 2020-08-25 23:02:18 · 1400 阅读 · 0 评论 -
时间序列 —— task02
资金流入流出预测时间序列规则与baseline赛题:资金流入流出预测赛题地址:https://tianchi.aliyun.com/competition/entrance/231573/introduction?spm=5176.12281925.0.0.158c7137tNEr5N赛题数据:竞赛中使用的数据主要包含四个部分,分别为用户基本信息数据、用户申购赎回数据、收益率表和银行间拆借利率表。时间序列规则很多比赛都可基于对背景的理解和数据分析获得有用规则,通过“if A then B“等方式原创 2020-08-22 23:36:38 · 131 阅读 · 0 评论 -
Kaggle泰坦尼克号 —— task02
特征工程一、特征提取test原本无Survived列,将其补齐test加到train尾部#先将数据集合并,一起做特征工程(注意,标准化的时候需要分开处理)test['Survived'] = 0train_test = train.append(test)Pclasspandas.get_dummiesget_dummies 是利用pandas实现one hot encode的方式。详细参数请查看官方文档train_test = pd.get_dummies(train_test,原创 2020-08-21 23:42:57 · 214 阅读 · 0 评论 -
Kaggle泰坦尼克号 —— task01
数据加载及探索性数据分析数据及背景:从Kaggle泰坦尼克号项目页面下载数据:https://www.kaggle.com/c/titanic在这次项目中,先在Kaggle上下载所需要的训练数据集和测试数据集,通过训练数据集分析什么类型的人能在这场灾难中生存下来,建立机器学习的模型,再使用这个模型预测测试数据集中所有人的生存情况。本次项目属于一个典型的二分分类问题,可以采用逻辑回归的方法建立机器学习模型。数据加载有两种方法:pd.read_csv(),pd.read_table()pd.rea原创 2020-08-19 23:51:23 · 221 阅读 · 0 评论