wu小胖-CSDN博客

原创 CART决策树算法

在进行自动识别窃漏电用户分析实战时，用到了CART决策树算法，所以整理记录该算法的内容。内容整理参考文档决策树——CART算法及其后的参考文章。CART（classification and regression tree）分类与回归树，既可用于分类，也可用于回归。CART分类树生成CART分类树算法使用基尼系数来选择特征。基尼系数Gini(D)表示集合D的不确定性（纯度），Gini(D,A)表示根据特征A的某个值a分割后集合D的不确定性（纯度）。基尼系数数值越小，样本纯度越高。对于给定的样本D，假设

2020-09-04 10:45:07 2122

原创 Adaboost算法

集成学习(Ensemble learning)：将若干个弱分类器通过一定的策略组合之后产生一个强分类器。弱分类器（基分类器）指的是那些分类准确率只比随机猜测略好一点的分类器，而强分类器的分类准确率高很多。...

2020-08-21 15:44:05 374

原创随机森林及应用

学习了B站视频《随机森林及应用》，记录一下学习笔记啦，原视频链接：Python机器学习算法实践Ⅲ-随机森林及应用。随机森林属于集成学习，所以首先了解集成学习。在集成学习中，主要分为Bagging算法和Boosting算法。Bagging（套袋法）：从原始样本集中使用Bootstraping方法（一种有放回的抽样方法）随机抽取n个训练样本，共进行k轮抽取，得到k个训练集，训练k个模型。对于分类问题，由投票表决产生分类结果（所有模型的重要性相同）。Boosting（提升法）：对训练集中的每个样本建立权值，

2020-08-12 22:06:59 7096 1

原创 DBSCAN聚类算法

一、DBSCAN算法是一种基于密度的聚类算法，聚类的时候不需要预先指定簇的个数，最终簇的个数不确定。DBSCAN算法将数据点分为三类：1、核心点：在半径Eps内含有超过MinPts数目的点。2、边界点：在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内的点。3、噪音点：既不是核心点也不是边界点的点。DBSCAN算法流程：1、将所有点标记为核心点、边界点或噪声点；2、删除噪声点；3、为距离在Eps之内的所有核心点之间赋予一条边；4、每组连通的核心点形成一个簇；5、将每个边界点

2020-07-25 16:05:46 15927 1

原创推荐系统

假设一个电影推荐问题，希望构建一个算法来预测每个用户可能会给他们没看过的电影打多少分，并以此作为推荐的依据。引入一些标记：nun_{u}nu代表用户的数量，nmn_{m}nm代表电影的数量，r(i,j)：如果用户j给电影i评过分则r(i,j)=1，y(i,j)y^{\left ( i,j \right )}y(i,j)代表用户j给电影i的评分，mjm_{j}mj代表用户j评过分的电影总数。假设采用线性回归模型构建一个推荐系统算法，θ(j)\theta ^{\left ( j \right )}θ(

2020-07-16 10:53:05 174

原创异常检测

密度估计：给定数据集x(1)x^{\left ( 1\right )}x(1),x(2)x^{\left ( 2\right )}x(2),…,x(m)x^{\left ( m\right )}x(m)，对它进行数据建模p(x)（属于这组数据的可能性），当有新的数据xtestx_{test}xtest时：高斯分布：变量x符合高斯分布x∼N(μ,σ2)x\sim N\left ( \mu ,\sigma ^{2} \right )x∼N(μ,σ2)，其概率密度函数为：p(x,μ,σ2)=12πσexp(

2020-07-13 11:56:47 147

原创主成分分析

降维不仅可以压缩数据，使得占用较少的计算机内存或磁盘空间，同时也加快学习算法。例如将数据从三维降到二维，就是将三维向量投射到一个二维的平面上。主成分分析(PCA)是最常见的降维算法。要将n维数据降至k维，目标是找到向量u(1)u^{\left ( 1 \right )}u(1),u(2)u^{\left ( 2 \right )}u(2),…,u(k)u^{\left ( k \right )}u(k)使得总的投射误差最小。投射误差是从特征向量向该方向向量作垂线的长度。如从二维数据降到一维：PCA算

2020-07-07 22:41:25 1942 1

原创 K-means算法

K-均值是最普及的聚类算法，它接受一个未标记的数据集，然后将数据聚类成不同的组。其方法为:1、首先选择K个随机的点，称为聚类中心。2、簇分配：对于数据集中的每一个数据，计算其距离K个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类。3、移动聚类中心：计算每一个组的平均值，移动该组所关联的中心点到平均值的位置。4、重复步骤2、3直至中心点不再变化。用μ1\mu ^{1}μ1,μ2\mu ^{2}μ2,…,μk\mu ^{k}μk表示聚类中心，用c(1)c^{\left

2020-07-04 16:51:41 280

原创支持向量机

从逻辑回归可以得到本质上的支持向量机。逻辑回归中一个训练样本对应的代价函数为：用z表示θTx\theta ^{T}xθTx，当y=1时，代价函数cost1(z)cost_{1}\left ( z \right )cost1(z)关于z的函数如上图左上角所示，当z增大时，代价函数对应的值会变小。取z=1处的点，画两条紫红色的直线，非常接近逻辑回归使用的代价函数。当y=0时，新的代价函数cost0(z)cost_{0}\left ( z \right )cost0(z)与此类似。将逻辑回归代价函数J(θ

2020-06-19 16:12:24 280

原创机器学习偏差与方差

应用机器学习的建议（1）模型预测未知数据时发现有较大误差，可考虑采用下面的几种方法：1、收集更多的训练样本；2、尝试减少特征的数量；3、尝试获得更多的特征；4、尝试增加多项式特征；5、尝试减少正则化参数λ；6、尝试增加正则化参数λ。（2）评估假设函数的方法：将数据分成训练集和测试集，典型的分割方法是按照7：3的比例（随机）。对训练集进行学习得到参数θ，利用测试集计算测试误差，即代价函数J。（3）从多个模型中选择一个更能适应一般情况的模型，可以使用交叉验证集。把数据分为三个部分，traini

2020-06-11 15:23:00 534

原创神经网络反向传播

神经网络应用于分类问题：假设训练样本有m个，每个包含一组输入x和一组输出y，L表示神经网络层数，SlS_{l}Sl表示l层的神经元个数。神经网络分类问题有两种情况：（1）二元分类：y只能是0或1，有且仅有一个输出单元。（2）多类别分类：有K个不同的类，有K个输出单元，假设输出K维向量，yi=1y_{i}=1yi=1表示分到第i类。多类别分类正则化后的代价函数为：J(θ)=−1m[∑i=1m∑k=1kyk(i)log(hθ(x(i)))k+(1−yk(i))log(1−(hθ(x(i)))k)]+λ

2020-06-05 16:38:43 390

原创多类别分类——逻辑回归和神经网络

假设有一个训练集如下图左部分所示，有3个类别。逻辑回归的方法是将其分成3个二元分类问题。先从类别1开始，创建一个新的“伪”训练集，类别2和类别3定为负类，类别1设定为正类，如图所示：对新的训练集训练一个标准的逻辑回归分类器，记作hθ(1)(x)h_{\theta }^{\left ( 1 \right )}\left ( x \right )hθ(1)(x)。接着类似地，选择另一个类标记为正向类，将其它类都标记为负向类，将这个模型记作hθ(2)(x)h_{\theta }^{\left ( 2 \ri

2020-05-29 14:41:12 1427

原创逻辑回归特征映射及正则化

当逻辑回归问题较复杂，原始特征不足以支持构建模型时，可以通过组合原始特征成为多项式，创建更多特征，使得决策边界呈现高阶函数的形状，从而适应复杂的分类问题。机器学习训练得到的模型可能存在一种现象是过拟合，在训练集上模型表现很好，但是在测试集上效果很差，即模型的泛化能力不行。此时解决方法有：1、丢弃一些不能帮助正确预测的特征。可以手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如PCA）。2、正则化：保留所有的特征，但是减小参数θj的值。正则化的思想是减少高次项θ的值，使曲线平滑。在逻辑回归算

2020-05-26 22:16:58 2715 1

原创逻辑回归

逻辑回归是一种分类算法，它的输出值永远在0到1之间，模型的假设是：hθ(x)=g(θTX)=11+e−θTX(X代表特征向量)h_{\theta }\left ( x \right )=g\left ( \theta ^{T} X\right )=\tfrac{1}{1+e^{-\theta ^{T}X}}(X代表特征向量)hθ(x)=g(θTX)=1+e−θTX1(X代表特征向量)上式中，g是一个常用的逻辑函数——sigmod函数，公式为：g(z)=11+e−zg\left ( z \right )

2020-05-24 11:26:58 421

原创线性回归

单变量线性回归只含有一个特征变量，模型可表示如下：

2020-05-20 16:38:27 844

吴小胖的博客