自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 机器学习——关联规则

关联规则(Association Rules)反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物就能够通过其他事物预测到关联规则可以看作是一种IF-THEN关系。假设商品A被客户购买,那么在相同的交易ID下,商品B也被客户挑选的机会就被发现了。1.1.1 项对一个数据表而言,表的每个字段都具有一个或者多个不同的值,字段的每种取值都是一个项item。1.1.2 项集项的集合称为项集itemset。

2023-09-26 10:37:25 577 1

原创 机器学习——逻辑回归算法

本质上是线性回归,只是在特征到结果的映射中加入了一层函数sigmoid函数映射,即先把特征线性求和,然后使用函数g(z)将做为假设函数来预测。作用:L1正则化有特征筛选的作用,对所有参数的惩罚力度都一样,可以让一部分权重变为零(降维),因此产生稀疏模型,能够去除某些特征(权重为0则等效于去除)当z>0时,g(z)>0.5,当z越来越大时,g(z)无限接近于1。当z<0时,g(z)<0.5,当z越来越小时,g(z)无限接近0。作用:使各个维度权重普遍变小,减少了权重的固定比例,使权重平滑。

2023-09-26 10:05:38 117 1

原创 机器学习——支持向量机(SVM)

SVM的优点:在⾼维空间中⾮常⾼效;即使在数据维度⽐样本数量⼤的情况下仍然有效;在决策函数(称为⽀持向量)中使⽤训练集的⼦集,因此它也是⾼效利⽤内存的;通⽤性:不同的核函数与特定的决策函数⼀⼀对应;SVM的缺点:如果特征数量⽐样本数量⼤得多,在选择核函数时要避免过拟合;对缺失数据敏感;对于核函数的⾼维映射解释。

2023-09-21 10:30:56 391

原创 机器学习——神经网络(BP)

BP 神经网络传播过程包括正向传播和反向传播,其中反向传播本质上是“负反馈”。这一点就类似于控制里面的闭环系统,通过反馈,利用偏差纠正偏差,从而达到满意的输出效果;对于误差的处理,利用了梯度下降法+多次迭代的方式,寻找最小的误差。在此过程中,每进行一次迭代,不同层节点之间的权重就会发生一次更新。正因为权重的动态更新,每一次正向传播所得到的误差也在动态更新,直至得到期望的输出效果;原理的掌握是基础,代码的实现是关键。

2023-09-21 10:05:13 1804

原创 机器学习——线性回归算法

选择合适的线性回归模型,并定义模型的假设函数。在线性回归中,通常假设目标变量与特征之间存在线性关系。4.

2023-09-14 11:17:10 611 1

原创 机器学习——朴素贝叶斯算法

需要注意的是,朴素贝叶斯算法中的上述公式假设特征之间是条件独立的,这是朴素贝叶斯算法的一个简化假设。2. 对输入数据分布的假设:朴素贝叶斯算法假设特征的分布满足条件独立性,但在实际情况中,特征之间的关系可能是复杂的,导致模型的偏差。3. 根据贝叶斯定理的数学表达式,计算在事件B发生的条件下,事件A发生的概率P(A|B)。1.P(A|B) 表示事件B发生的条件下事件A发生的概率,也称为A在B条件下的后验概率。2.P(A ∩ B) 表示事件A和事件B同时发生的概率,也称为A与B的交集的概率。

2023-09-14 10:41:51 742 1

原创 机器学习——聚类分析

并且,当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的形状,而这个肘部对应的k值就是数据的真实聚类数。黑色的样本是非核心对象。对于xj∈D,其ϵ-邻域包含样本集D中与xj的距离不大于ϵ的子样本集,即Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}, 这个子样本集的个数记为|Nϵ(xj)|。

2023-09-05 10:50:23 169 1

原创 理解决策树的三种算法

(1)选择最佳划分属性和划分点:对于每个特征,选择最佳划分属性和划分点,使得划分后的子集的纯度最大化(如基尼指数最小化)。(3)根据最佳划分属性划分数据集:与ID3算法相同,根据最佳划分属性将数据集划分为多个子集。(2)根据最佳划分属性和划分点划分数据集:根据最佳划分属性和划分点将数据集划分为多个子集。(3)根据最佳划分属性划分数据集:根据最佳划分属性将数据集划分为多个子集。(1)计算数据集的熵:首先,计算整个数据集的熵,用于衡量数据的不确定性。作为属性选择的方法,选择最大信息增益的属性作为节点分裂属性。

2023-09-03 11:57:10 121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除