【阅读笔记】数据挖掘与建模过程 - Python数据分析与挖掘实战

最新推荐文章于 2023-09-26 08:53:07 发布

guieraxbc

最新推荐文章于 2023-09-26 08:53:07 发布

阅读量509

点赞数

分类专栏：读书笔记文章标签：数据挖掘数据分析

本文链接：https://blog.csdn.net/fmqdzh/article/details/119358668

版权

6 篇文章 0 订阅

订阅专栏

数据挖掘与建模过程

明确挖掘目标，从业务系统中抽取出一个与挖掘目标相关的样本数据子集。一是相关性，二是可靠性，三是有效性

import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

数据特征分析要求我们在数据挖掘建模前，通过包括但不止以下分析方法对采集的样本数据的特征规律进行分析，以了解数据的规律和趋势，为数据挖掘的后续环节提供支持

插补方法	方法描述
均值/中位数/众数插补	根据属性值的类型，用该属性取值的平均数/中位数/众数进行插补
使用固定值	将缺失的属性值用一个常量替换。如广州一个工厂普通外来务工人员的“基本工资”属性的空缺值可以用2015年广州市普通外来务工人员工资标准1895元/月，该方法就是使用固定值
最近临插法	在记录中找到与缺失样本最接近的样本的该属性值插补
回归方法	对带有缺失值的变量，根据已有数据和与其有关的其他变量（因变量）的数据建立拟合模型来预测缺失的属性值
插值法	插值法是利用已知点建立合适的插值函数f(x)，未知值由对应点x_i求出的函数值f(xi)近似代替

将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。

对数据进行规范化处理，将数据转换成“适当的”形式，以适用于挖掘任务及算法的需要。

在大规模数据集上进心复杂的数据分析和挖掘需要很长的时间，数据规约产生更小但保持原数据完整性的新数据集

函数名	函数功能	所属扩展库
interpolate	一维、高维数据插值	Scipy
unique	去除数据中的重复元素，得到单值元素列表，它是对象的方法名	Pandas/Numpy
isnull	判断是否空值	Pandas
notnull	判断是否非空值	Pandas
PCA	对指标变量矩阵进行主成分分析	Scikit-Learn
random	生成随机矩阵	Numpy