sklearn
用于自己学习记录
liuziyuan827
在技术的道路上一去不复返
展开
-
电影评分预测系统分析
一、数据获取(一)数据源地址:在kaggle官网获取电影评分的数据,官方网址为:https://www.kaggle.com/rounakbanik/the-movies-dataset用Google打开,因为需要注册和下载,网页如下图所示:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ab2Bgx4L-1596448565451)(138E684BBA5240568AE3217C4CD1F0E0)]网页上有对数据的说明(二)遇到的问题点击最右侧的下载,需要注册原创 2020-08-03 18:43:44 · 7137 阅读 · 0 评论 -
降维
降维PCA一、什么是维度二、什么是降维三、sklearn中的降维算法四、PCA的实现五、PCA的重要属性一、什么是维度数组和Series:维度就是功能shape返回的结果,shape中返回了几个数字就是几维。特征矩阵或Dataframe:维度就是样本的数量或特征的数量。图像:维度就是图像中特征向量的数量二、什么是降维降维算法中的“降维”,指的是降低特征矩阵中特征的数量。降维的目的:1、让算法运算更快,效果更好;2、数据可视化三、sklearn中的降维算法四、PCA的实现from skl原创 2020-07-28 07:57:52 · 710 阅读 · 0 评论 -
特征选择
特征选择一、过滤法(1)方差过滤(2)相关性过滤1、卡方过滤2、F检验3、互信息法二、Embedded嵌入法三、Wrapper包装法四、总结特征提取——特征创造——特征选择一、过滤法(1)方差过滤特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数指都一样,那么这个特征对于样本区分没有什么作用。所以,优先消除方差为0的特征。注意:方差过滤对随机森林影响不大,因为随机森林本来就是随机选取特征进行分枝,本身运算就非常快速,因此特征选择对它来说效果不明显。 data_x = ne原创 2020-07-27 20:27:33 · 294 阅读 · 0 评论 -
数据预处理(二)
使用sklearn对数据进行预处理一、数据无量纲化(1)数据归一化(Min-Max Scaling)1、用sklearn中,preprocessing.MinMaxScaler实现2、使用numpy来实现归一化(2)数据标准化(StandardScaler)二、缺失值处理(1)使用sklearn中impute模块填补(2)用Pandas和Numpy进行填补(3)缺失值很少时,直接删除该行数据三、处理分类型特征(1)编码:将文字型数据转换为数值型1.preprocessing.LabelEncoder:标签专原创 2020-07-27 13:31:50 · 392 阅读 · 0 评论 -
调参基本思想
调参的基本思想目的:使泛化误差达到最低点各参数对模型的影响程度先确定参数的大范围再缩小范围调参如果使模型复杂度降低了,反而造成score变低,即使图像左移对模型造成负影响,那所有使图像左移的调参都可以不进行。max_features默认为列总数的开平方根,图像右移,score变低,说明原来的点更好,不需要再调目的:使泛化误差达到最低点1)模型太复杂或者太简单,都会让泛化误差高,我们追求的是位于中间的平衡点2)模型太复杂就会过拟合,模型太简单就会欠拟合3)对树模型和树的集成模型来说,树的深度越深,枝原创 2020-07-26 22:16:43 · 288 阅读 · 0 评论 -
填补缺失值
填补缺失值使用0或均值填补缺失值使用随机森林填补缺失值使用0或均值填补缺失值#使用均值进行填补from sklearn.impute import SimpleImputer #引入sklearn中用来填充的类imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean') #填充的类也需要实例化#用法和DecissionTreeClassifier一样,要先实例化,strategy表示填充的方法X_missing_mean = i原创 2020-07-26 22:20:44 · 726 阅读 · 0 评论 -
RandomForestClassifier和RandomForestRegressor
RandomForestClassifier和RandomForestRegressorRandomForestClassifier参数介绍重要属性介绍重要方法RandomForestRegressor参数介绍重要属性介绍重要方法RandomForestClassifier参数介绍from sklearn.ensemble import RandomForestClassifierclf = RandomForestClassifier (n_estimators='10' #基模型个数原创 2020-07-21 17:39:49 · 2965 阅读 · 0 评论 -
交叉验证
交叉验证定义使用定义将原始数据分组,每组划分训练集和测试集,分别得出评分等值。可以对各组的结果取平均作为最后的结果。使用#交叉验证:cross_val_scoredef crossTest(data,target): #输入数据和标签,不需要进行划分 from sklearn.model_selection import cross_val_score import matplotlib.pyplot as plt rfc = RandomForestClassifier(原创 2020-07-26 22:22:02 · 156 阅读 · 0 评论 -
sklearn学习目录
sklearn目录学习网址数据预处理模型选择交叉验证机器学习离散标签:DecisionTreeClassifier连续标签:DecisionTreeRegressor随机森林离散标签:DecisionTreeClassifier连续标签:DecisionTreeRegressor决策树神经网络算法强化学习学习网址sklearnAPI:https://scikit-learn.org/stable/modules/classes.htmlAPI使用方法:找模型(注意区分是连续还是离散)—— 查看模型的参原创 2020-07-20 12:16:30 · 199 阅读 · 0 评论 -
DecisionTreeRegressor的使用
DecisionTreeRegressor的使用参数介绍重要属性介绍重要方法(接口)介绍调参举例参数介绍clf = tree.DecisionTreeClassifier( criterion="mse" #不纯度的计算方法。"mse"表示使用均方误差;"friedman_mse"表示使用费尔德曼均方误差;“mae”表示使用绝对平均误差 ,splitter="best" #控制决策树中的随机选项。“best”表示在分原创 2020-07-17 17:39:40 · 5267 阅读 · 3 评论 -
DecisionTreeClassifier的使用
DecisionTreeClassifier参数介绍重要属性介绍重要方法(接口)介绍调参利用图像调参根据分数高低选择决策树的深度根据预测结果与实际结果比较判断过拟合还是欠拟合利用网格调参举例参数介绍clf = tree.DecisionTreeClassifier(criterion="entropy" #不纯度的计算方法。"entropy"表示使用信息熵;"gini"表示使用基尼系数 ,splitter="best" #控制决策树原创 2020-07-17 16:51:24 · 6949 阅读 · 0 评论