![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
叶锦小兴
我好帅
展开
-
Task05 数据建模和数据评估
1 数据建模如何选择合适的模型?1.监督学习还是无监督学习?2.任务需求3.样本量及特征的稀疏性4.选择一个基本的模型作为baseline,进而再训练其他模型做对比,最终选择泛化能力或性能比较好的模型sklearn的算法选择路径:1.1 切割训练集和测试集留出法:· 将数据集分为自变量和因变量· 按比例切割训练集和测试集(一般测试集的比例有30%、25%、20%、15%和10%)· 使用分层抽样· 设置随机种子以便结果能复现交叉验证法:· 将数据集D划分为k个大小相似的互斥子集原创 2020-08-26 23:04:10 · 218 阅读 · 0 评论 -
Task04 数据可视化
1 准备工作matplotlib的通常引入约定是:import matplotlib.pyplot as plt在Jupyter中运行%matplotlib notebook,就可以直接显示图像,不需要每次都运行plt.show()。1.1 figure和subplotmatplotlib的图像都位于Figure对象中。使用plt.figure创建一个新的Figure:fig = plt.figure()相当于创建一个空画布,然后我们可以在这个画布上绘图,需要用add_subplot创建原创 2020-08-24 21:31:02 · 261 阅读 · 0 评论 -
Task03 数据重构
1 数据的合并1.1 加载数据并使用不同的方法合并import numpy as npimport pandas as pd#加载数据text_left_up = pd.read_csv("data/train-left-up.csv")text_left_down = pd.read_csv("data/train-left-down.csv")text_right_up = pd.read_csv("data/train-right-up.csv")text_right_down = p原创 2020-08-22 20:05:01 · 212 阅读 · 0 评论 -
Task02 数据清洗及特征处理
1 数据清洗简述我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本章我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。2 缺失值观察与处理2.1 任务一 观察缺失值(1) 请查看每个特征缺失值个数#方法一df.info()#方法二df.isnull().sum()执行后发现Age, Cabin, Embarked列有缺失值。(2)原创 2020-08-20 17:13:46 · 220 阅读 · 0 评论 -
Task01 数据基础操作
第一部分 数据加载1.1 载入数据数据集来自kaggle上的一个竞赛链接.以及项目需要使用的数据集 链接.任务一 :导入numpy和pandasimport numpy as npimport pandas as pd任务二:载入数据(1) 使用相对路径载入数据(2) 使用绝对路径载入数据#使用相对路径df = pd.read_csv('train.csv')df.head(3)#查看前三行#使用绝对路径df = pd.read_csv('D:/Datawhale学习/八月组原创 2020-08-17 21:36:45 · 930 阅读 · 0 评论