- 博客(3)
- 收藏
- 关注
原创 数据挖掘学习笔记(天池二手车价格预测03)
文章目录前言1 异常缺失值删除1.1 导入库与数据1.2异常值删除2 树模型的特征构造2.1 时间特征构造2.2 城市信息特征提取2.3.品牌特征提取3 树模型的数据分桶4 LR与NN模型的特征构造4.1 与归一化4.2 编码5 特征选择5.1 过滤式(filter)5.2包裹式(wrapper)5.3 嵌入式(embedding)前言我们经常在处理数据时,会面临以下问题:1.的数据格式不对(如 SQL 数据库、JSON、CSV 等)2.缺失值和异常值3.标准化4.减少数据集中存在的固有噪声(
2021-04-19 21:35:18
267
1
原创 数据挖掘学习笔记(天池二手车预测02)
文章目录1.数据分析EDA2.数据总览3.数据的缺失情况4.数据的异常情况5.了解待预测的真实值的分布情况六级标题``1.数据分析EDA1.EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。2.当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。3.引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。4.完成对于数据的探索性分析,并对于数据进行一
2021-04-16 18:40:08
363
原创 数据挖掘学习笔记
系列文章目录数据挖掘学习笔记01二、使用步骤1.数据的导入与观察import pandas as pdimport numpy as np## 1) 载入训练集和测试集;path = 'D:\\tc.car\\data\\'Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep
2021-04-12 21:31:08
167
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人