sklearn
文章平均质量分 95
sklearn
kingsure001
从现在开始
展开
-
sklearn 线性回归
1 多元线性回归LinearRegression原理建模评估指标2 岭回归建模Ridge专门的选择最好alpha的交叉验证3 Lasso 的核心作用:特征选择4 多项式回归多项式回归提升模型表现1 多元线性回归LinearRegression原理线性回归是机器学习中最简单的回归算法,多元线性回归指的就是一个样本有多个特征的线性回归问题。对于一个n有 i 个特征的样本 而言,它的回归结果可以写作一个几乎人人熟悉的方程:在多元线性回归中,我们的损失函数如下定义:我们的损失函数是L2范式,即欧式距.原创 2021-02-18 14:36:20 · 11330 阅读 · 0 评论 -
sklearn-决策树-红酒数据
from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitwine = load_wine()#导入数据#print(wine.target)#print(wine.data.shape)#标签Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,tes原创 2020-07-22 20:52:28 · 3013 阅读 · 1 评论 -
sklearn-回归树(波士顿房价)
from sklearn.datasets import load_bostonfrom sklearn.model_selection import cross_val_scorefrom sklearn.tree import DecisionTreeRegressorboston = load_boston()regressor = DecisionTreeRegressor(random_state=0)#交叉验证print(cross_val_score(regressor,bosto原创 2020-07-25 11:08:43 · 804 阅读 · 1 评论 -
sklearn—特征选择(菜菜)
Filter过滤法方差过滤VarianceThreshold这是通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以无论接下来的特征工程要做什么,都要优先消除方差为0的特征。VarianceThreshold有重要参数threshold,表示方差的阈值,表示舍弃所有方差小于threshold的特征,不填默认为0,即删除所有的记录都相同的特征。#导入数据,让我们使用原创 2020-08-04 11:25:54 · 2652 阅读 · 1 评论 -
sklearn-随机森林
建森林from sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitwine=load_wine()#print(wine.data.shape,wine.target)#实例化X原创 2020-07-25 20:52:58 · 206 阅读 · 0 评论 -
sklearn-决策/回归树/随机森林--普遍的参数/属性/接口(菜菜教程)
参数属性接口原创 2020-07-26 10:56:47 · 487 阅读 · 0 评论 -
随机森林在乳腺癌数据上的调参
机器学习中,我们用来衡量模型在未知数据上的准确率的指标,叫做泛化误差(Genelization error)。那模型的复杂度与我们的参数有什么关系呢?对树模型来说,树越茂盛,深度越深,枝叶越多,模型就越复杂。所以树模型是天生位于图的右上角的模型,随机森林是以树模型为基础,所以随机森林也是天生复杂度高的模型。随机森林的参数,都是向着一个目标去:减少模型的复杂度,把模型往图像的左边移动,防止过拟合。当然了,调参没有绝对,也有天生处于图像左边的随机森林,所以调参之前,我们要先判断,模型现在究竟处。我们只需要记原创 2020-07-26 10:42:26 · 524 阅读 · 0 评论 -
sklearn——降维-PCA(菜菜)
降维算法中的”降维“,指的是降低特征矩阵中特征的数量。降维的目的是1 为了让算法运算更快,效果更好,2 还有另一种需求:数据可视化。(三维及以下的特征矩阵,是可以被可视化的,这可以帮助我们很快地理解数据的分布,而三维以上特征矩阵的则不能被可视化,数据的性质也就比较难理解)PCA与SVD在高维数据中,必然有一些特征是不带有有效的信息的(比如噪音),或者有一些特征带有的信息和其他一些特征是重复的(比如一些特征可能会线性相关)。我们希望能够找出一种办法来帮助我们衡量特征上所带的信息量,让我们在降维的过原创 2020-08-03 13:24:24 · 5052 阅读 · 1 评论 -
sklearn-数据处理(菜菜)
今天用jupter写代码了,有点不习惯呢,有个小问题一直不对,查了 把代码单元分割的快捷键,咋整也不对,原来是用(Ctrl和Shift和“-”号),我少了个‘-’号【捂脸】,这是所有快捷键的功能: Jupyter Notebook 的快捷键.1 . 获取数据2. 数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,原创 2020-07-30 12:37:06 · 1416 阅读 · 0 评论 -
Jupyter Notebook 的快捷键
Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R : 单元转入raw状态1 : 设定 1 级标题2 : 设定原创 2020-07-29 21:44:24 · 233 阅读 · 0 评论