自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 数据挖掘学习笔记(天池二手车价格预测03)

文章目录前言1 异常缺失值删除1.1 导入库与数据1.2异常值删除2 树模型的特征构造2.1 时间特征构造2.2 城市信息特征提取2.3.品牌特征提取3 树模型的数据分桶4 LR与NN模型的特征构造4.1 与归一化4.2 编码5 特征选择5.1 过滤式(filter)5.2包裹式(wrapper)5.3 嵌入式(embedding)前言我们经常在处理数据时,会面临以下问题:1.的数据格式不对(如 SQL 数据库、JSON、CSV 等)2.缺失值和异常值3.标准化4.减少数据集中存在的固有噪声(

2021-04-19 21:35:18 267 1

原创 数据挖掘学习笔记(天池二手车预测02)

文章目录1.数据分析EDA2.数据总览3.数据的缺失情况4.数据的异常情况5.了解待预测的真实值的分布情况六级标题``1.数据分析EDA1.EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。2.当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。3.引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。4.完成对于数据的探索性分析,并对于数据进行一

2021-04-16 18:40:08 363

原创 数据挖掘学习笔记

系列文章目录数据挖掘学习笔记01二、使用步骤1.数据的导入与观察import pandas as pdimport numpy as np## 1) 载入训练集和测试集;path = 'D:\\tc.car\\data\\'Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep

2021-04-12 21:31:08 167

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除