机器学习专题
文章平均质量分 94
MTVideoAI
音视频编解码;人工智能;智能音视频;多媒体架构;ffmpeg&opencv
展开
-
机器学习基础-10:机器学习简史
ML-10:机器学习简史ML-10:机器学习简史1 机器学习发展历程2 机器学习的派别2.1 符号学派2.2 联结学派2.3 进化学派2.4 贝叶斯学派2.5 类推学派参考文献ML-10:机器学习简史一起创作,Come on!!! 简练而全面的开源ML&AI电子书人类社会和自然界每时每刻都会生产大量数据,数据即信息,如果有效利用这些信息和数据,如何根据个体和机构的特定需求从海量数...原创 2018-09-25 08:15:56 · 1203 阅读 · 0 评论 -
机器学习实战-51: 逻辑回归分类算法(Logistic Regression)
逻辑回归分类算法1 算法原理2 算法实例3 典型应用参考资料。逻辑回归(Logistic Regression)解决问题的逻辑是:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。逻辑回归(Logistic Regression)可以用于回归或者分类问题。逻辑回归(Logistic Regression)分类算法能够解决二元分类和多元分类问题。原创 2018-10-02 23:13:58 · 1176 阅读 · 0 评论 -
机器学习实战-52: K最近邻分类算法(k-Nearest Neighbor-KNN)
K最近邻(k-Nearest Neighbor-KNN)分类算法属于监督学习算法。1968年,Cover 和 Hart 提出 K最近邻(k-Nearest Neighbor-KNN)分类算法。其核心想法非常简单明了,确定一个临近度的度量, 相似性越高,相异性越低的数据样本,可以认为是同一个数据类别。原创 2018-10-02 23:17:55 · 1182 阅读 · 0 评论 -
机器学习实战-54: 集成学习分类算法(ada-boost)
机器学习之集成学习分类算法(ada-boost)属于监督学习算法。在实际部署场合,由于数据的多样性和复杂性,前期评估的分类模型往往不是最佳的。对此通过多种分类方法的融合即集成学习有利于可以这个缺陷,增强了分类算法的鲁棒性。集成学习(ada-boost)是一种机器学习范式,它试图通过连续调用单个的学习算法,获得不同的基学习器,然后根据规则组合这些学习器来解决同一个问题,可以显著的提高学习系统的泛化能力。原创 2018-10-02 23:33:02 · 1505 阅读 · 0 评论 -
机器学习实战-55:支持向量机分类算法(Support Vector Machine)
支持向量机(Support Vector Machine)分类算法属于监督学习算法。在1963年,Vapnik使用支持向量机(Support Vector Machine)解决模式识别问题,关键样本被认为是支持向量。在1971年,将核技巧引入到支持向量机(Support Vector Machine)解决非线性问题。在1995年,Vapnik提出基于机(Support Vector Machine)的学习理论。支持向量机(support vector machines, SVM)是一种二分类模型。原创 2018-10-02 23:38:18 · 2013 阅读 · 0 评论 -
机器学习实战-56: 决策树分类算法(Decision Tree)
决策树(Decision Tree)分类算法属于监督学习算法。决策树(Decision Tree)分类算法是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分类规则。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。著名的决策树包括:ID3、C4.5、C5.0和CART算法等,这些算法的决策树的结构、剪枝的方法和策略略有不同。原创 2018-10-02 23:41:46 · 1110 阅读 · 0 评论 -
机器学习实战-57: 人工神经网络分类算法(Artificial Neural Network)
人工神经网络(Artificial Neural Network)分类算法属于监督学习算法。人工神经网络(Artificial Neural Network)是模拟神经元的处理信息的数学模型。神经网络包含多个层次,同层之间的神经元相互之间不进行数据通信;相邻层之间的神经元相互联接构成网络,即”神经网络”。数据信息顺着网络正向传播,误差信息逆着网络方向反向传播。2000年以前,神经网络一直被SVM算法压制,随后出现大量理论创新和应用创新,成为最热门的机器学习方法。人工神经网络(Artificial Neu原创 2018-10-02 23:45:01 · 13771 阅读 · 4 评论 -
机器学习实战-61:K均值聚类算法(K-Means)
聚类算法包括:K均值聚类(K-Means)、层次聚类(Hierarchical Clustering)和混合高斯模型(Gaussian Mixture Model)。K均值聚类(K-Means)算法的核心思想是:对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。原创 2018-10-03 18:00:18 · 2660 阅读 · 0 评论 -
机器学习实战-62:层次聚类算法(Hierarchical Clustering)
聚类算法包括:K均值聚类(K-Means)、层次聚类(Hierarchical Clustering)和混合高斯模型(Gaussian Mixture Model)。层次聚类(Hierarchical Clustering)是一种聚类算法,属于无监督学习。层次聚类通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的叶节点,树的顶层是一个聚类的根节点。创建聚类树的经典方式是:自下而上合并方法和自上而下分裂方法。原创 2018-10-03 18:03:32 · 1718 阅读 · 0 评论 -
机器学习实战-63:混合高斯模型聚类算法(Gaussian Mixture Model)
高斯混合模型(Gaussian Mixture Model)简称GMM, 高斯混合模型使用K个高斯分布的结合组成的概率分布模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。其理论基础是:K个高斯分布的结合组成的概率分布模型理论上可以任意地逼近任何连续的概率密分布。高斯分布(Gaussian distribution)也被称为正态分布(normal distribution),是一种在自然界大量的存在的、最为常见的分布形式。原创 2018-10-03 18:06:26 · 5195 阅读 · 0 评论 -
机器学习实战-64:线性判别分析降维算法(Linear Discriminant Analysis)
线性判别分析(Linear Discriminant Analysis-LDA)是一种监督学习的降维技术, 即他要求训练数据是有标签信息的数据集。主成因分析(Principal Component Analysis-PCA)是一种无监督学习的降维技术。线性判别分析(Linear Discriminant Analysis-LDA)的核心思想是:投影后类内方差最小,类间方差最大。LDA要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。原创 2018-10-03 18:10:50 · 3361 阅读 · 0 评论 -
机器学习实战-65:主成因分析降维算法(Principal Component Analysis)
主成因分析(Principal Component Analysis: PCA)是使用最广的降维方法。PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。机器学习分为监督学习、无监督学习和半监督学习(强化学习)。无监督学习最常应用的场景是聚类(clustering)和降维(dimension reduction)。聚类算法包括:K均值聚类(K-Means)、层次聚类(Hierarchical Clustering)和混合高斯模型(Gaussian Mixture Model)。原创 2018-10-03 18:13:33 · 1227 阅读 · 0 评论 -
机器学习实战-53:朴素贝叶斯分类算法(Naive Bayesian, NB)
朴素贝叶斯(Naive Bayesian, NB)分类算法属于监督学习算法。朴素贝叶斯(Naive Bayesian, NB)分类算法基于贝叶斯定理和极大似然估计对数据集分类。贝叶斯定理的强大之处在于能够根据不确定性信息作出推理和决策。当你不能确定一个事件发生的概率时,你可以依靠于该事件本质属性相关的事件发生的概率去推断该事件发生的概率。贝叶斯定理可用于贝叶斯推断: 随着信息增加,贝叶斯定理可以用于更新假设的概率。在决策理论中,贝叶斯推断与主观概率密切相关,通常被称为贝叶斯概率。原创 2018-10-02 23:21:26 · 1058 阅读 · 0 评论 -
机器学习原理与实践(开源图书)-总目录
开源图书-机器学习原理与实践-总目录CSDN专栏: 机机器学习原理与实践现在我们有了足够的基础设施收集数据和处理数据的能力,诸如:物联网、全球导航系统、互联网、工业互联网、电信网络、移动通信网络、传感器网络、云计算、超级计算机集群。从海量数据中建立模型或发现有用的知识才能将数据矿藏变成真实的知识财富,而挖矿的工具就是机器学习。告别碎片阅读,构成知识谱系。 一起阅读和完善开源图书《机器学...原创 2018-10-12 17:24:53 · 4271 阅读 · 0 评论 -
机器学习基础-22:信息论和信息熵
ML&AI-22:信息论和信息熵。熵的概念最早起源于物理学,用于度量一个热力学系统的无序程度。在信息论里则叫信息量,即熵是对不确定性的度量。从控制论的角度来看,应叫不确定性。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。原创 2018-09-25 08:39:19 · 1065 阅读 · 0 评论 -
PyTorch超级资源列表(Github 2.4K星)包罗万象
PyTorch超级资源列表(Github 2.4K星)包罗万象。发现了一份极棒的 PyTorch 资源列表,该列表包含了与 PyTorch 相关的众多库、教程与示例、论文实现以及其他资源。实践派赶紧收藏,以备不时之需。由于是资源列表,仅翻译了一级标题,看官见谅。项目地址:https://github.com/bharathgs/Awesome-pytorch-list原创 2018-10-21 15:05:04 · 5831 阅读 · 0 评论 -
机器学习实战-43: 多项式回归算法(Polynomial Regression)
机器学习之多项式回归算法(Polynomial Regression).很多场合线性模型无法很好的拟合目标数据曲线,这就需要引入非线性回归模型。对于非线性回归存在多种策略,第一种策略是将非线性回归转化成线性回归;第二种策略是将非线性回归转化成多项式回归。多项式回归中,加入了特征的更高次方(例如平方项或立方项),也相当于增加了模型的自由度,用来捕获数据中非线性的变化。原创 2018-10-02 23:08:19 · 12384 阅读 · 0 评论 -
机器学习实战-42: 非线性回归算法(Non-linear Regression)
机器学习之非线性回归算法(Non-linear Regression)属于有监督的回归(Regression)学习算法。很多场合线性模型无法很好的拟合目标数据曲线,这就需要引入非线性回归模式。非线性回归(Non-linear Regression)算法就是将非线性回归转化为线性回归,再按照线性回归求解。线性回归通常采用给定的函数值与模型预测值之差的平方和最小为损失函数, 并使用最小二乘法和梯度下降法来计算最终的拟合参数。原创 2018-10-02 23:02:04 · 34421 阅读 · 2 评论 -
机器学习基础-11:机器学习的分类
ML-11:机器学习的分类ML-11:机器学习的分类1 学习形式分类1.1 监督学习(Supervised Learning)1.2 非监督学习(Unsupervised Learning)1.3 强化学习(Reinforcement Learning)2 任务目标分类2.1 回归算法2.2 分类算法2.3 聚类算法3 学习策略分类3.1 演绎学习 (Learning by deduction)3...原创 2018-09-25 08:21:57 · 4757 阅读 · 0 评论 -
机器学习基础-12:机器学习的通用流程
机器学习的通用流程包括:采集原始数据,原始数据来自若干种数据源;清洗数据,清洗数据的目标是将原始数据转换成目标系统的数据并存储;机器学习处理输入数据并输出机器学习决策;机器学习决策输出到外部系统,外部系统做进一步的显示、控制、反馈或通知等链式关联操作。原创 2018-09-25 08:25:51 · 1641 阅读 · 0 评论 -
机器学习基础-13: ML经典数据集
ML-13:机器学习常见数据集ML-13:机器学习常见数据集1 图像数据集2 视频数据集3 音频数据集4 综合数据集参考文献ML-13:机器学习常见数据集ImageNet图像数据集, 包含1400万图像Tiny图像数据集, 包含8000万的32x32图像Flickr图像数据集, 包含100万图像...原创 2018-09-25 08:28:26 · 1568 阅读 · 1 评论 -
机器学习基础-14: 机器学知名开源项目
机器学知名开源项目。以机器学习、人工智能、深度学习为代表的人工智能是科技研究中最热门的方向之一。像IBM、谷歌、微软、Facebook 和亚马逊等公司都在研发上投入大量的资金、或者收购那些在机器学习、神经网络、自然语言和图像处理等领域取得了进展的初创公司。人工智能是技术迭代的加速器,每家公司都希望利用人工智能增加高维攻击力和防守力。原创 2018-09-25 08:31:02 · 463 阅读 · 0 评论 -
机器学习基础-20:相关理论基础
AI的终极目标是实现类人脑智能,神经科学是研究类人脑智能的钥匙。探索智能、意识的人脑机理,认识人的行为和情感,创新脑疾病诊断与治疗,是二十一世纪科学的前沿领域。脑科学和神经科学的发展极大的推动了神经网络计算的发展。第二次世界大战之后,美苏在全维度展开了霸权竞赛,人工智能研究伴随着计算机的发展也开始进入佳境。经过经过半个多世纪的发展,人工智能逐渐形成:符号学派、贝叶斯学派和联结学派三个流派。原创 2018-09-25 08:35:40 · 809 阅读 · 0 评论 -
机器学习基础-21:概率论基础
ML&AI-21:概率论基础。本章讨论概率论,在机器学习或人工智能领域中,智能系统往往需要处理不确定性或随机数据。我们需要借助概率论,从不确定性关系中寻找确定性规律,为我们在不确定性存在的情况下进行推理提供了工具集。在人工智能领域,概率论提供了系统方法能够指导AI系统如何推理,也能从理论上辅助我们分析AI系统的行为。原创 2018-09-25 08:37:16 · 637 阅读 · 0 评论 -
机器学习基础-23:矩阵理论(L0/L1/L2范数等)
ML/AI-23:矩阵理论(L0/L1/L2范数)标量和、向量和张量; 矩阵和矩阵的性质; 范数(L0范数、L1范数、L2范数); 特征分解; 奇异值分解。线性代数是数学的一个分支,广泛应用于科学和工程领域。线性代数和矩阵理论是机器学习和人工智能的重要数学基础。有短板的请补课,推荐《The Matrix Cookbook》。线性代数主要涉及矩阵理论,本节围绕矩阵理论展开。原创 2018-09-25 08:40:46 · 1304 阅读 · 0 评论 -
机器学习基础-30:特征工程与模型选择
ML-30:特征工程与模型选择。数据预处理包括: 数据清洗、数据格式转换和领域知识收集等。数据清洗的任务是过滤掉不符合要求的数据;不符合要求的数据主要是不完整的数据、错误的数据和重复的数据。过滤掉的数据需要业务部门是否需要重新采集,是否需要修正,是否包含重要隐含特征等?数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。原创 2018-09-25 10:12:57 · 1552 阅读 · 0 评论 -
机器学习基础-31:模型的误差与过拟合
机器学习;模型误差与过拟合。误差按其来源可分为模型误差、测量误差、截断误差和舍入误差。由模型的局限性引起的误差称为模型误差。对于机器学习模型,其核心任务是要能对新出现的数据样本准确进行预测,样本准确度的度量可以用模型误差来度量,模型误差一般不是来自新数据的误差而是训练数据的误差。过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。原创 2018-09-26 09:12:30 · 754 阅读 · 0 评论 -
机器学习实战-71:初探SkLearn数据集
ML-71: sklearn的数据集(含python源码)。鸢尾花(yuānwěi)数据集是源自20世纪30年代的经典数据集。它是用统计进行分类的鼻祖。数据包含三个亚属:山鸢尾花(Iris Setosa)、变色鸢尾花(Iris Versicolor)和维吉尼亚鸢尾花(Iris Virginica)。鸢尾花具有四个特征:花萼长度(cm)、花萼宽度(cm)、花瓣长度(cm)、花瓣宽度(cm),这些形态特征在过去被用来识别物种。原创 2018-09-26 09:22:54 · 1047 阅读 · 0 评论 -
机器学习实战-75:ML特征工程完全攻略手册
ML-75:sklearn的特征工程(含python源码)sklearn提供了丰富的特征工程库,特征工程包含:特征预处理、特征降维和特征选择。sklearn的sklearn.preprocessing库支持特征预处理;sklearn的sklearn.decomposition/sklearn.lda库库支持特征降维;sklearn的sklearn.feature_selection库来进行特征选择。原创 2018-09-26 09:27:09 · 698 阅读 · 0 评论 -
机器学习基础-32:模型的性能度量
ML-32:机器学习模型的性能度量。机器学习模型是通过学习并利用数据内部的规律与关系,去完成一个指定任务的数学模型。我们需要一系列的性能度量指标评价模型的泛化能力。不同的性能度量出发点和关注点存在差异,评判结果也有明显差别。机器学习算法通过学习训练数据集的内部的规律,构建了一个机器学习模型。进行机器学习模型的性能评测时,需要关注模型的泛化能力,即机器学习模型面对新的数据时,处理任务的精度问题。原创 2018-09-26 09:32:21 · 599 阅读 · 0 评论 -
机器学习基础-33:模型的偏差与方差
ML-33:机器学习模型的偏差与方差。偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响。噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,也就是最小值。泛化误差可以分解为偏差、方差和噪声之和。原创 2018-09-26 09:34:14 · 828 阅读 · 0 评论 -
机器学习实战-72:SkLearn线性回归和多项式回归算法
ML-72: 机器学习的回归算法实战(含sklearn源码)本代码构建线性函数和多项式函数并绘图。然后在用SkLearn的线性回归(LinearRegression)模块和多项式回归(PolynomialFeatures)模块拟合上述两种曲线。原创 2018-09-26 09:46:10 · 4245 阅读 · 1 评论 -
机器学习实战-41:线性回归算法(Linear Regression)
机器学习之线性回归算法(Linear Regression)属于有监督的回归(Regression)学习算法。线性回归(Linear Regression)算法就是寻找一条最优的直线来拟合数据(可以扩展到多维)。线性回归通常采用给定的函数值与模型预测值之差的平方和最小为损失函数, 并使用最小二乘法和梯度下降法来计算最终的拟合参数。原创 2018-10-02 22:55:14 · 2591 阅读 · 1 评论 -
Tensorflow超级资源列表(Github 12.8K星)包罗万象
Tensorflow超级资源列表(Github 12.8K星)包罗万象。发现了一份极棒的 Tensorflow 资源列表,该列表包含了与 Tensorflow 相关的众多库、教程与示例、论文实现以及其他资源。实践派赶紧收藏,无问西东,行动起来。由于是资源列表,仅翻译了一级标题,看官见谅。项目地址:https://github.com/jtoy/awesome-tensorflow原创 2018-10-21 15:39:01 · 1173 阅读 · 0 评论