![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DataWhale
pieta'
这个作者很懒,什么都没留下…
展开
-
【DataWhale】【数据分析】Chapter 3 模型建立和评估
模型评估 模型评估是为了知道模型的泛化能力。 交叉验证(cross-validation)是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。 在交叉验证中,数据被多次划分,并且需要训练多个模型。 最常用的交叉验证是 k 折交叉验证(k-fold cross-validation),其中 k 是由用户指定的数字,通常取 5 或 10。 准确率(precision)度量的是被预测为正例的样本中有多少是真正的正例 召回率(recall)度量的是正类样本中有多少被预测为正类 f-分数原创 2020-08-28 17:54:32 · 87 阅读 · 0 评论 -
【DataWhale】【数据分析】Chapter 2
数据清洗及特征处理 查看缺失值 df.isna().sum() df.isnull().sum() 对缺失值进行处理 请查看数据中的重复值 对年龄进行分箱(离散化)处理 将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示 将连续变量Age按10% 30% 50 70% 90%五个年龄段,并用分类变量12345表示 查看文本变量名及种类 将文本变量Se原创 2020-08-21 12:48:16 · 97 阅读 · 0 评论 -
【DataWhale】【数据分析】Chapter 1
数据载入及初步观察 载入数据 csv: pd.read_csv(绝对路径or相对路径) Excel: pd.read_excel() txt: pd.read_txt() 逐块读取 df = pd.read_csv('train.csv', chunksize=100) for chunk in df: print(chunk) 或者 df = pd.read_csv('train.csv', iterator=True) chunks = df.get_chunk(100) print(chunk原创 2020-08-19 14:31:01 · 136 阅读 · 0 评论