机器学习系列
拙能胜巧nsq
这个作者很懒,什么都没留下…
展开
-
机器学习算法系列(七):L1正则化与L2正则化
本文主要从该博客处学习:https://blog.csdn.net/u012162613/article/details/44261657一: 模型过拟合简单来讲,就是在训练集上表现很好,误差很小,准确率很高,但是在测试集中,表现很差,误差很大。第一幅图为欠拟合,第二个为正常拟合,第三个为过拟合。解决过拟合一般有两种方法:1.丢弃一些不能帮助我们预测的特征的数量。2.正则化。保留所有...原创 2019-11-09 21:17:29 · 1085 阅读 · 0 评论 -
机器学习算法系列(五):bagging与随机森林对比及随机森林模型参数介绍
Bagging思想bagging是一种集成模型的思想。其名称来源于“bootstrap aggregating"。这种方法是用来解决模型的过拟合问题。首先说一下bootstrap方法,中文名称叫做”自助采样法“,是一种有放回的采样方法。比如说样本空间有m个样本,当通过bootstrap方法采样时,我们有放回的采样m次,得到m个样本(其中有重复)。bagging思想就是以自助采样法为基础进行的...原创 2019-07-01 11:01:35 · 6795 阅读 · 0 评论 -
机器学习算法系列(四):决策树回归模型
CART算法中的分类树采用基尼系数的方法来划分特征。而回归树则采用最小二乘法,生成最小二乘回归树。一:如何选择最优切分点?对每一个特征中相邻的数据取均值,作为候选切分点。假设特征有a个取值,则有a - 1 个候选切分点。然后针对每个切分点,将该特征的数据分成两部分,r1和r2。计算两部分中数据的均值c1和c2。对两部分做最小二乘。损失函数为为(y - 均值)^2,再求和。将两部分最小...原创 2019-06-30 20:55:07 · 2822 阅读 · 1 评论 -
机器学习算法系列(六):聚类算法(K-means,K-medoids,层次聚类)
一:聚类算法介绍在无监督算法中,用于训练的数据不需要标签。聚类算法就属于无监督算法的一种。聚类算法可以分为两大类:分割型聚类(每个样本点只能在一个类别中)k-means/k-medoids聚类层次型聚类树状的数据结构,每一层是一种分类方法。二:聚类算法的应用图像压缩相近的样本在一个类别中,距离较远的样本在不同类别中。每个类别中只存储一个代表样本。图像分割...原创 2019-07-10 16:37:23 · 2317 阅读 · 0 评论 -
机器学习算法系列(三):决策树分类模型
1.分类决策树介绍:决策树是树模型的基础形式。它包含一个根节点,若干个内部节点,以及若干个叶子节点。其中根节点包含全部的样本。每个内部节点代表了一个属性测试,每个子节点对应于一个决策结果(分为多少类就有多少个子节点)。决策树学习的目的在于产生一颗泛化能力强的决策树。决策树的优点:(1):直观易理解,符合人认知事物的过程。(2)应用范围广,分类回归均可以。缺点就是容易造成过拟合。需要剪枝来适当限...原创 2019-06-29 14:47:51 · 4726 阅读 · 0 评论 -
机器学习算法系列(二):逻辑回归
从概率分布的角度推导逻辑回归的损失函数逻辑回归是一种分类算法。y=wTx+by=\mathbf{w^{T} x}+by=wTx+b采用非线性映射:z=11+e−yz=\frac{1}{1+e^{-y}}z=1+e−y1逻辑回归一定选取sigmoid函数,其实就是把y的值从(−∞,+∞)(-\infty,+\infty)(−∞,+∞)压缩到(0,1)(0,1)(0,1)其实,逻辑回...原创 2019-06-29 11:13:01 · 230 阅读 · 0 评论 -
机器学习算法系列(一):线性回归 (损失函数(均方误差角度,概率分布角度) 正规方程法 梯度下降法求解线性回归)
线性回归损失函数推导(均方误差角度,概率分布角度) 正规方程法 梯度下降法求解线性回归从均方误差的角度推导线性回归的损失函数线性回归是一种最基本的机器学习算法。基本形式为:y^=θ0x0+θ1x1+θ2x2+θ3x3+……=θTx\hat{y} = \theta_0x_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+……=\mathbf{\theta^Tx}y...原创 2019-06-28 14:10:40 · 2535 阅读 · 0 评论 -
sklearn特征选择(过滤式,包裹式,嵌入式)
sklearn特征选择实操过滤式from sklearn.feature_selection import SelectKBestfrom sklearn.datasets import load_irisiris = load_iris()x,y = iris.data,iris.targety[:5]array([0, 0, 0, 0, 0])x[:5]array([[...原创 2019-06-25 15:18:50 · 966 阅读 · 0 评论 -
sklearn特征工程(数值型、类别型、时间型、文本型)实操
利用sklearn做特征工程一:数值型特征1.1 对数变换(log变换)## 对数变换import numpy as nplog_age = df_train['Age'].apply(lambda x:np.log(x))1.2 MinMaxscaler(最大最小值缩放)from sklearn.preprocessing import MinMaxScalerminmax =...原创 2019-06-24 20:56:55 · 1555 阅读 · 0 评论 -
特征选择介绍
特征选择介绍1.特征选择,顾名思义,就是要选择一部分的特征用于训练,而不使用全部的特征。那么为什么要进行特征选择?有一些特征之间的相关度太高了,会大量消耗计算资源。有一些特征可能会对预测结果有负影响。2.特征选择和降维一样吗?不一样。特征选择是剔除一部分冗余的特征,剔除的这些特征和预测的关系很小。而降维本质上是将特征映射到另一个低维空间中,但是保留了数据的大部分信息。降维后的特征发生...原创 2019-06-20 09:25:29 · 1426 阅读 · 0 评论 -
数据采样与特征工程(数值型特征 类别型特征 时间型特征 文本型特征)介绍
特征工程一:特征工程介绍俗话说,“巧妇难为无米之炊”。在机器学习中,数据和特征便是“米”,模型和算法便是“巧妇”。没有充足的数据、合适的特征,再强大的模型也是没有任何作用的。对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型,算法只是逐步接近这个上限。所谓特征工程,就是对最原始的数据(数字,文本,图像等)进行一系列的处理,将其提炼为特征,作为输入供算法和模型使用。二:数据清洗数...原创 2019-06-19 20:29:59 · 4355 阅读 · 0 评论