
机器学习
文章平均质量分 81
黑马程序员官方
国内公认的好口碑IT教育机构,持续提供优质免费资源,让千万学子少走弯路!
黑马程序员是A股上市公司传智教育旗下子品牌,已培养30余万IT人才,每10名学员有7名来自老学员推荐。
展开
-
决策树算法概述及原理详解
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。原创 2023-02-09 17:57:46 · 13955 阅读 · 1 评论 -
机器学习 | 深入理解EM算法
学习目标:EM算法也称期望最大化(Expectation-Maximum,简称EM)算法。它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM)等等。EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,所以算法被称为EM算法(Expectation-Maximization Algorithm)。EM算法受到缺失思想影响,最初是为了解决数据缺失情况下的参数估计问题,其算法基础和收敛有效性等问题在Dempster、Laird和Rubin三人于1977年所做的文章《Maxi原创 2023-01-30 15:19:16 · 832 阅读 · 0 评论 -
简单易懂的隐马尔可夫模型(HMM)讲解
马尔科夫链即为状态空间中从一个状态到另一个状态转换的随机过程。下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆”称作马尔可夫性质。马尔科夫链作为实际过程的统计模型具有许多应用。在马尔可夫链的每一步,系统根据概率分布,可以从个状态变到另一个状态,也可以保持当前状一态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转移概率。原创 2023-01-05 15:04:24 · 10988 阅读 · 2 评论 -
什么是隐马尔可夫模型(HMM)?案例介绍
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。原创 2023-01-03 18:20:05 · 1186 阅读 · 0 评论 -
如何快速入门深度学习目标检测?
根据上图以及说明,我们可以列出以下表格,其中 Images 代表图片的编号,Detections 代表预测边框的编号,Confidences 代表预测边框的置信度,TP or FP 代表预测的边框是标记为 TP 还是 FP(认为预测边框与 GT 的 IOU 值大于等于 0.3 就标记为 TP;若一个 GT 有多个预测边框,则认为 IOU 最大且大于等于 0.3 的预测框标记为 TP,其他的标记为 FP,即一个 GT 只能有一个预测框标记为 TP),这里的 0.3 是随机取的一个值。原创 2022-11-16 14:53:09 · 320 阅读 · 0 评论 -
简单易懂 | 机器学习如何快速入门?
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。2数据简介一行数据我们称为一个样本一列数据我们成为一个特征有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)数据类型一:特征值+目标值(目标值是连续的和离散的)数据类型二:只有特征值,没有目标值训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效训练集:70% 80% 75%测试集:30% 20% 25%2.2。原创 2022-09-23 17:40:35 · 1354 阅读 · 1 评论 -
如何理解逻辑回归?原理、应用场景、癌症分类预测
逻辑回归(Logistic Regression)是中的一,逻辑回归是一种分类算法,虽然名字中带有回归。由 于算法的简单和有效,在实际中应用非常广泛。原创 2022-09-21 11:56:01 · 653 阅读 · 0 评论 -
黑马程序员深度学习图像分类讲义
图像分类是什么?从给定的类别集合中为图像分配对应的类别标签2.常用的数据集Mnist,cifar数据集,ImageNet数据集。原创 2022-08-23 18:54:02 · 245 阅读 · 0 评论 -
黑马程序员深度学习框架TensorFlow讲义
深度学习框架TensorFlow一经发布,就受到了广泛的关注,并在计算机视觉、音频处理、推荐系统和自然语言处理等场景下都被大面积推广使用,现在已发布2.8.0版本,接下来我们深入浅出的介绍Tensorflow的相关应用。TF托管在github平台,有google groups和contributors共同维护。TF提供了丰富的深度学习相关的API,支持Python和C/C++接口。TF提供了可视化分析工具Tensorboard,方便分析和调整模型。原创 2022-08-22 17:42:21 · 439 阅读 · 0 评论 -
应用pca和K-means实现用户对物品类别的喜好细分划分
1.获取数据2.数据基本处理2.1 合并表格2.2 交叉表合并2.3 数据截取3.特征工程 — pca4.机器学习(k-means)5.模型评估sklearn.metrics.silhouette_score(X, labels)计算所有样本的平均轮廓系数X:特征值labels:被聚类标记的目标值3 完整代码...原创 2022-08-01 18:15:29 · 339 阅读 · 1 评论 -
机器学习:知道通过低方差过滤实现降维过程
降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程降低随机变量的个数相关特征(correlatedfeature)相对湿度与降雨量之间的相关等等正是因为在进行训练的时候,我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强,对于算法学习预测会影响较大数据中包含冗余或无关变量(或称特征、属性、指标等),旨在从原有特征中找出主要特征。高维数据转化为低维数据的过程,在此过程中可能会舍弃原有数据、创造新的变量应用回归分析或者聚类分析当中。...原创 2022-07-29 18:50:43 · 686 阅读 · 0 评论 -
机器学习算法:知道canopy、K-means++、二分K-means、K-medoids的优化原理
对于每一个小批量,通过计算平均值得到更新质心,并把小批量里的数据分配给该质心,随着迭代次数的增加,这些质心的变化是逐渐减小的,直到质心稳定或者达到指定的迭代次数,停止计算。k-medoids只能对小样本起作用,样本大,速度就太慢了,当样本多的时候,少数几个噪音对k-means的质心影响也没有想象中的那么重,所以k-means的应用明显比k-medoids多。kernelk-means实际上,就是将每个样本进行一个投射到高维空间的处理,然后再将处理后的数据使用普通的k-means算法思想进行聚类。...原创 2022-07-29 18:35:42 · 1483 阅读 · 0 评论 -
机器学习:知道模型评估中的SSE、“肘”部法、SC系数和CH系数的实现原理
在机器学习里,主要为了获取数据的特征值,那么就是说,在任何一个矩阵计算出来之后,都可以简单化,只要获取矩阵的迹,就可以表示这一块数据的最重要的特征了,这样就可以把很多无关紧要的数据删除掉,达到简化数据,提高处理速度。计算样本i到最近簇Cj的所有样本的平均距离bij,称样本i与最近簇Cj的不相似度,定义为样本i的簇间不相似度bi=min{bi1,bi2,...,bik},bi越大,说明样本i越不属于其他簇。从平均SC系数结果来看,K取3,5,6是不好的,那么2和4呢?...原创 2022-07-28 18:41:07 · 2770 阅读 · 0 评论 -
机器学习:聚类算法实现流程
4、如果计算得出的新中心点与原中心点一样(质心不再移动),那么结束,否则重新进行第二步过程【经过判断,需要重复上述步骤,开始新一轮迭代】2、对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别。3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)5、当每次迭代结果不变时,认为算法收敛,聚类完成,...原创 2022-07-28 18:36:28 · 351 阅读 · 0 评论 -
机器学习:聚类算法API初步使用
参数n_clusters开始的聚类中心数量整型,缺省值=8,生成的聚类数,即产生的质心(centroids)数。方法计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)原创 2022-07-27 17:50:44 · 302 阅读 · 0 评论 -
机器学习:聚类算法简介
在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。用户画像,广告推荐,DataSegmentation,搜索引擎的流量推荐,恶意流量识别。图像分割,降维,识别;发掘相同功能的基因片段。聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。学习算法,主要用于将相似的样本自动归到一个类别中。基于位置信息的商业推送,新闻聚类,筛选排序。...原创 2022-07-26 18:00:59 · 357 阅读 · 0 评论 -
机器学习算法:Boosting集成原理和实现过程
随着学习的积累从弱到强简而言之每新加入一个弱学习器,整体能力就会得到提升代表算法泰勒展开越多,计算结果越精确。原创 2022-07-25 15:53:21 · 2177 阅读 · 0 评论 -
机器学习算法:RandomForestClassifier的使用
integer,optional(default=10)森林里的树木数量120,200,300,500,800,1200Criterionstring,可选(default=“gini”)分割特征的测量方法max_depthinteger或None,可选(默认=无)树的最大深度5,8,15,25,30max_features="auto”,每个决策树的最大特征数量...bootstrap。...原创 2022-07-25 15:30:28 · 4355 阅读 · 1 评论 -
集成学习算法:Bagging和随机森林
integer,optional(default=10)森林里的树木数量120,200,300,500,800,1200Criterionstring,可选(default=“gini”)分割特征的测量方法max_depthinteger或None,可选(默认=无)树的最大深度5,8,15,25,30max_features="auto”,每个决策树的最大特征数量...bootstrap。...原创 2022-07-20 16:37:28 · 714 阅读 · 0 评论 -
机器学习算法:集成学习算法简介
集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。原创 2022-07-18 17:15:52 · 182 阅读 · 0 评论 -
机器学习算法案例:泰坦尼克号乘客生存预测
优点简单的理解和解释,树木可视化。缺点决策树学习者可以创建不能很好地推广数据的过于复杂的树,容易发生过拟合。改进减枝cart算法随机森林(集成学习的一种)注企业重要决策,由于决策树很好的分析能力,在决策过程应用较多,可以选择特征。...原创 2022-07-18 17:14:41 · 2392 阅读 · 1 评论 -
机器学习算法:决策树算法api
class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)criterion特征选择标准"gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一默认"gini",即CART算法。原创 2022-07-15 18:04:59 · 228 阅读 · 0 评论 -
机器学习算法:特征工程-特征提取
将任意数据(如文本或图像)转换为可用于机器学习的数字特征注特征值化是为了计算机更好的去理解数据特征提取分类字典特征提取(特征离散化)文本特征提取图像特征提取(深度学习将介绍)对于特征当中存在类别信息的我们都会做one-hot编码处理。...原创 2022-07-15 18:03:18 · 2302 阅读 · 0 评论 -
机器学习算法:cart剪枝
图形描述出现这种情况的原因:(1)每一个结点所包含的最小样本数目,例如10,则该结点总样本数小于10时,则不再分;(2)指定树的高度或者深度,例如树的最大深度为4;(3)指定结点的熵小于某个值,不再划分。随着树的增长, 在训练样集上的精度是单调上升的, 然而在独立的测试样例上测出的精度先上升后下降。后剪枝,在已生成过拟合决策树上进行剪枝,可以得到简化版的剪枝决策树。...原创 2022-07-08 16:11:22 · 515 阅读 · 0 评论 -
机器学习算法:决策树算法简介以及分类原理
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。怎么理解这句话?通过一个对话例子想一想这个女生为什么把年龄放在最上面判断!上面案例是女生通过定性的主观意识,把年龄放到最上面,那么如果需要对这一过程进行量化,该如何处理呢?此时需要用到信息论中的知识:信息熵,信息增益原创 2022-07-07 18:08:40 · 2345 阅读 · 1 评论