数据挖掘
文章平均质量分 85
开 饭
这个作者很懒,什么都没留下…
展开
-
数据挖掘学习笔记(天池二手车价格预测03)
文章目录前言1 异常缺失值删除1.1 导入库与数据1.2异常值删除2 树模型的特征构造2.1 时间特征构造2.2 城市信息特征提取2.3.品牌特征提取3 树模型的数据分桶4 LR与NN模型的特征构造4.1 与归一化4.2 编码5 特征选择5.1 过滤式(filter)5.2包裹式(wrapper)5.3 嵌入式(embedding) 前言 我们经常在处理数据时,会面临以下问题: 1.的数据格式不对(如 SQL 数据库、JSON、CSV 等) 2.缺失值和异常值 3.标准化 4.减少数据集中存在的固有噪声(原创 2021-04-19 21:35:18 · 286 阅读 · 1 评论 -
数据挖掘学习笔记(天池二手车预测02)
文章目录1.数据分析EDA2.数据总览3.数据的缺失情况4.数据的异常情况5.了解待预测的真实值的分布情况六级标题`` 1.数据分析EDA 1.EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。 2.当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。 3.引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。 4.完成对于数据的探索性分析,并对于数据进行一原创 2021-04-16 18:40:08 · 456 阅读 · 0 评论 -
数据挖掘学习笔记
系列文章目录 数据挖掘学习笔记01 二、使用步骤 1.数据的导入与观察 import pandas as pd import numpy as np ## 1) 载入训练集和测试集; path = 'D:\\tc.car\\data\\' Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ') Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep原创 2021-04-12 21:31:08 · 188 阅读 · 0 评论