Jblhyano-CSDN博客

原创机器学习——关联规则

关联规则（Association Rules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其他事物预测到关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买，那么在相同的交易ID下，商品B也被客户挑选的机会就被发现了。1.1.1 项对一个数据表而言，表的每个字段都具有一个或者多个不同的值，字段的每种取值都是一个项item。1.1.2 项集项的集合称为项集itemset。

2023-09-26 10:37:25 833 1

原创机器学习——逻辑回归算法

本质上是线性回归，只是在特征到结果的映射中加入了一层函数sigmoid函数映射，即先把特征线性求和，然后使用函数g(z)将做为假设函数来预测。作用：L1正则化有特征筛选的作用，对所有参数的惩罚力度都一样，可以让一部分权重变为零（降维），因此产生稀疏模型，能够去除某些特征（权重为0则等效于去除）当z>0时，g(z)>0.5，当z越来越大时，g(z)无限接近于1。当z<0时，g(z)<0.5，当z越来越小时，g(z)无限接近0。作用：使各个维度权重普遍变小，减少了权重的固定比例，使权重平滑。

2023-09-26 10:05:38 210 1

原创机器学习——支持向量机（SVM）

SVM的优点：在⾼维空间中⾮常⾼效；即使在数据维度⽐样本数量⼤的情况下仍然有效；在决策函数（称为⽀持向量）中使⽤训练集的⼦集,因此它也是⾼效利⽤内存的；通⽤性：不同的核函数与特定的决策函数⼀⼀对应；SVM的缺点：如果特征数量⽐样本数量⼤得多，在选择核函数时要避免过拟合；对缺失数据敏感;对于核函数的⾼维映射解释。

2023-09-21 10:30:56 2059

原创机器学习——神经网络（BP）

BP 神经网络传播过程包括正向传播和反向传播，其中反向传播本质上是“负反馈”。这一点就类似于控制里面的闭环系统，通过反馈，利用偏差纠正偏差，从而达到满意的输出效果；对于误差的处理，利用了梯度下降法+多次迭代的方式，寻找最小的误差。在此过程中，每进行一次迭代，不同层节点之间的权重就会发生一次更新。正因为权重的动态更新，每一次正向传播所得到的误差也在动态更新，直至得到期望的输出效果；原理的掌握是基础，代码的实现是关键。

2023-09-21 10:05:13 4602

原创机器学习——线性回归算法

选择合适的线性回归模型，并定义模型的假设函数。在线性回归中，通常假设目标变量与特征之间存在线性关系。4.

2023-09-14 11:17:10 1908 1

原创机器学习——朴素贝叶斯算法

需要注意的是，朴素贝叶斯算法中的上述公式假设特征之间是条件独立的，这是朴素贝叶斯算法的一个简化假设。2. 对输入数据分布的假设：朴素贝叶斯算法假设特征的分布满足条件独立性，但在实际情况中，特征之间的关系可能是复杂的，导致模型的偏差。3. 根据贝叶斯定理的数学表达式，计算在事件B发生的条件下，事件A发生的概率P(A|B)。1.P(A|B) 表示事件B发生的条件下事件A发生的概率，也称为A在B条件下的后验概率。2.P(A ∩ B) 表示事件A和事件B同时发生的概率，也称为A与B的交集的概率。

2023-09-14 10:41:51 1807 1

原创机器学习——聚类分析

并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。黑色的样本是非核心对象。对于xj∈D，其ϵ-邻域包含样本集D中与xj的距离不大于ϵ的子样本集，即Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}, 这个子样本集的个数记为|Nϵ(xj)|。

2023-09-05 10:50:23 426 1

原创理解决策树的三种算法

（1）选择最佳划分属性和划分点：对于每个特征，选择最佳划分属性和划分点，使得划分后的子集的纯度最大化（如基尼指数最小化）。（3）根据最佳划分属性划分数据集：与ID3算法相同，根据最佳划分属性将数据集划分为多个子集。（2）根据最佳划分属性和划分点划分数据集：根据最佳划分属性和划分点将数据集划分为多个子集。（3）根据最佳划分属性划分数据集：根据最佳划分属性将数据集划分为多个子集。（1）计算数据集的熵：首先，计算整个数据集的熵，用于衡量数据的不确定性。作为属性选择的方法，选择最大信息增益的属性作为节点分裂属性。

2023-09-03 11:57:10 245