机器学习
文章平均质量分 56
Gwynbleidddd
这个作者很懒,什么都没留下…
展开
-
深度学习基础(三)卷积神经网络
深度学习基础(三)卷积神经网络卷积神经网络的基本结构卷积层卷积层中卷积核的属性是如何确定的?CNN中的反向传播功能层卷积神经网络Minist分类卷积神经网络的基本结构一般的卷积神经网络由几个部分组成输入层隐藏层(卷积层与)全连接层激活层(激活函数)输出层卷积层由多个卷积核组合形成,每个卷积核同数据数据卷积组合 形成新的特征图。卷积核:1、同输入数据进行计算的二维算子2、大小由用户定义。3、卷积核的矩阵值:卷积神经网络的参数。4、卷积核初值随机生成,通过反向传播进行更新。原创 2020-10-12 18:38:57 · 570 阅读 · 0 评论 -
深度学习基础(二)传统神经网络
参考文章:常用的非线性激励函数从线性到非线性常见的非线性激励函数在神经网络中为什么要引入非线性激励函数?为了回答上述这个问题,我们先抛出一个与之相关的问题:什么叫线性?线性就是利用形如:f(x)=wx+bf ( x ) = w x + bf(x)=wx+b 的表达式来表示输入与输出的关系。假如输入 xxx 与输出 f(x)f ( x )f(x) 存在线性的关系,我们用表达式 f(x)=wx+bf ( x ) = w x + bf(x)=wx+b 可以很好的表征出这种关系。但是,一旦这种客.原创 2020-10-10 19:58:20 · 1281 阅读 · 0 评论 -
深度学习基础(一)深度学习总体介绍
从传统机器学习到深度学习基本概念原创 2020-10-08 21:24:05 · 159 阅读 · 0 评论 -
机器学习---算法基础(十三)HMM隐马尔可夫模型
>参考文章:隐马尔可夫模型(HMM)详解HMM-前向后向算法理解与实现(python)隐马尔科夫模型(HMM)一前向与后向算法HMM隐马尔可夫模型马尔科夫模型从马尔可夫模型到隐马尔科夫模型隐马尔可夫模型组成三个问题评估(观察序列计算问题)前向算法后向算法解码(隐含状态序列计算问题)Viterbi算法学习(预测观测序列算法)Baum-welch算法(EM算法)HMM应用总结马尔科夫模型存在一类重要的随机过程:如果一个系统有 N 个状态S1,S2,...SnS_1,S_2,...S_nS原创 2020-10-03 20:06:36 · 321 阅读 · 0 评论 -
机器学习---算法基础(十二)LDA主题模型
参考文章:一文详解LDA主题模型小白都能看懂的蒙特卡洛方法以及python实现机器之心——马尔可夫模型马尔可夫链蒙特卡罗算法(MCMC)MCMC(一)蒙特卡罗方法机器学习---算法基础(十二)LDA主题模型数学基础Gamma分布Beta分布与Dirichlet分布随机样本采样蒙特卡洛方法基本思想蒙特卡洛求积分马尔科夫模型马尔科夫性质马尔科夫模型拒绝接受采样(Acceptance-Rejection Sampling)MCMC(马尔科夫—蒙特卡洛算法)中的代表——MH算法文本建模PLSA模型L.原创 2020-10-02 20:21:51 · 251 阅读 · 0 评论 -
机器学习---算法基础(十一)贝叶斯网络
什么是贝叶斯网络?原创 2020-09-24 15:10:11 · 2016 阅读 · 0 评论 -
机器学习---算法基础(十)EM算法
EM算法概述EM算法即期望最大化(Expection Maximization)算法。是一种迭代算法,作为一种数据添加算法,在现在的DL学习中经常见到。隐变量隐变量指的是不可观测的随机变量,我们通常通过可以观测的变量来对隐变量来进行推测。例如我们知道1000个人的身高体重,但是我们并不了解这些样本中的男女比例,对于男女比例来说就是一个隐变量。EM算法的感性理解EM算法的公式推导对于EM算法简单的说可以理解为以下几步:预测非隐变量的参数(E)根据预测的非隐变量的参数,估算隐变量(M)根原创 2020-09-20 22:24:38 · 379 阅读 · 0 评论 -
机器学习---算法基础(九)聚类算法概述
参考文章:用于数据挖掘的聚类算法有哪些,各有何优势?聚类算法无监督学习算法,将拥有的数据分成几类。聚类算法的分类与代表算法为:算法分类算法含义常用算法 层次化聚类算法透过一种层次架构方式.原创 2020-09-12 23:48:24 · 348 阅读 · 0 评论 -
机器学习---算法基础(八)SVM
1、SVM概念支持向量机(英语:support vector machine,常简称为SVM,又名支持向量网络)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。通俗的理原创 2020-09-07 21:27:23 · 400 阅读 · 0 评论 -
机器学习---算法基础(5.3)XGBoost
XGBoost参考文献:XGBoost超详细推导机器学习算法中 GBDT 和 XGBOOST 的区别有哪些?XGBoost与GBDT树的原理相似,都是使用加法模型,通过梯度上升的方式求出,其主要的不同点在XGBoost使用的是泰勒展式的二阶导数,而GBDT采用的是一阶导,XGBoost的拟合效果更好XGBoost中带有正则项(L2正则项),减少了模型的过拟合。Shrinkage(缩减),相当于学习速率(xgboost中的eta)。xgboost在进行完一次迭代后,会将叶子节点的权重乘上原创 2020-09-01 14:37:03 · 473 阅读 · 0 评论 -
机器学习补充(三)——bias偏差、error误差、variable方差三者的关系
在看完了所有的讲解后我总结一下:ERROR指的是泛化误差,通常用这种方式来评价我们拟合的模型在 “真实模型” 上的好坏。打个比方:我们希望我们的模型在识别很多兔子的照片的时候,既不会将其全部识别为狮子,也不会将其一会识别为海豹一会识别为兔子一会又识别为猫。从之中我们可以看出泛化误差的定义:泛化误差=偏差+方差,只有两者都小的情况下,才能使得我们的模型又准又不分散。偏差Bias根据西瓜书上的定义偏差度量了学习算法的预期值与真实结果的偏离程度,刻画了学习算法本身的拟合能力。对于一个算法其本身原创 2020-08-24 20:49:51 · 595 阅读 · 0 评论 -
机器学习---算法基础(5.2)集成学习,AdaBoosting,GBDT
baggingboosting随机森林随机森林的工作原理如下:从数据集(表)中随机选择k个特征(列),共m个特征(其中k小于等于m)。然后根据这k个特征建立决策树。重复n次,这k个特性经过不同随机组合建立起来n棵决策树(或者是数据的不同随机样本,称为自助法样本)。对每个决策树都传递随机变量来预测结果。存储所有预测的结果(目标),你就可以从n棵决策树中得到n种结果。计算每个预测目标的得票数再选择模式(最常见的目标变量)。换句话说,将得到高票数的预测目标作为随机森林算法的最终预测。原创 2020-08-20 16:38:11 · 462 阅读 · 0 评论 -
机器学习补充(一)——正则化与稀疏
什么是稀疏?什么是正则化?如何证明正则化会导致稀疏?公式推导图像推导拉普拉斯先验推导原创 2020-08-15 19:55:07 · 1816 阅读 · 1 评论 -
机器学习机基础总结(一)数据清洗
数据清洗Pandas Fuzzy-Levenshtein distenceFuzzywuzzy提供了语言的模糊查询或者替换等PCA主成分分析PCA主成分分析算法(Principal Components Analysis)是一种最常用的降维算法。能够以较低的信息损失(以样本间分布方差衡量)减少特征数量。PCA算法可以帮助分析样本中分布差异最大的成分(主成分),有助于数据可视化(降低到2维或3维后可以用散点图可视化),有时候还可以起到降低样本中的噪声的作用(丢失的信息有部分是噪声)。PCA分析的解原创 2020-08-09 18:10:58 · 287 阅读 · 0 评论 -
机器学习---算法基础(七)K-means算法
Kmeans算法介绍K-means算法是将样本聚类成k个簇(cluster)将相近的数据点分配到同一个簇中。其基本的算法思想为:随机选择K个聚类中心点(不一定为数据点,有可能选择的是距)计算其他点到这K个点的距离,将每个点分配到距离其最近的点中随机重新选择K个点,重新计算每个簇的质心(计算每个点矩阵相加的平均值,并作为新的中心点)重复2,3步,最后的到最优的K点Kmeans的算法收敛对于分类算法,我们使用欧氏距离相加的平均值作为损失函数,通过损失函数来评价分类的好坏。Kmeans算法是原创 2020-08-08 00:13:12 · 255 阅读 · 0 评论 -
机器学习---算法基础(六)线性回归与逻辑回归
线性回归逻辑回归原创 2020-08-02 21:08:31 · 678 阅读 · 0 评论 -
机器学习---算法基础(5.1)决策树与随机森林
信息论基础熵代表信息的复杂程度,也即是一段信息中包含了多少的信息量。信息熵的计算公式H(X)=∑x∈XP(x)log(P(x))H(X)=\sum_{x\in X}{P(x)\log\left(P(x)\right)}H(X)=x∈X∑P(x)log(P(x))P(x)代表该信息出现的概率,一个随机变量的熵越大,不确定性越大,也就是说该随机变量包含的信息越大。决策树决策树算法采用树形结构,使用层层推理来实现最终的分类(根据信息包含的数量)。特征选择特征选择决定了使用哪些特征来做判断。在原创 2020-07-24 01:03:41 · 753 阅读 · 0 评论 -
机器学习---算法基础(四)机器学习算法,K近邻算法与朴素贝叶斯算法
数据的划分与介绍为了验证算法的准确性,不能使用所有的数据来进行模型训练,一般需要划分训练集与原创 2020-07-21 22:53:31 · 357 阅读 · 0 评论 -
机器学习---算法基础(三)机器学习算法分类与开发流程
数据类型分为离散型和连续性数据机器学习算法分类监督学习-分类:K紧邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络-回归:线性回归、岭回归-标注:隐含马尔科夫模型无监督学习- 聚类:k-means机器学习的开发流程1、找到对应的数据2、建立模型:根据数据划分应用种类3、数据处理,处理缺失值等4、抽取特征工程5、找到合适的算法预测6、模型的评估,判定效果可以通过调整特征工程、算法、参数调整机械学习的效果。...原创 2020-07-20 21:56:33 · 146 阅读 · 0 评论 -
机器学习---算法基础(二)数据降维
数据降维针对数据降维指的是特征值维度的下降数据的降维有两种方式:特征选择与主成分分析特征选择特征选择的原因:冗余:部分特征的相关度高,容易消耗计算性能噪声:部分特征对预测结果有影响特征选择的定义:从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值或者不改变值。主要用到的方法有:Filter(过滤式):VarianceThreshold从方差大小考虑所有样本这个特征的情况。通过过滤的方式对所有低于指定方差的特征Embedded(嵌入式):正则化、决策树原创 2020-07-19 12:09:23 · 178 阅读 · 0 评论 -
机器学习---算法基础(一)特征工程与文本特征值提取
数据集机器学习的数据文件:scv可用数据集合:scikit-learn 数据量小,方便学习UCI 收集的数据集多Kaggle 竞赛平台,科学家提供数据集数据结构构成结构:特征值 + 目标值原创 2020-07-18 22:58:45 · 860 阅读 · 0 评论 -
机器学习---数学基础加强(3)矩阵与线性代数
矩阵线性代数是可用的前言:SVD:奇异值分解奇异值分解是一种重要的矩阵分解方法,可以看做对称仿真在任意矩阵上的推广。假设一个A矩阵是一个m×n阶的实矩阵,则存在一个分解使得:Am×n=Um×m∑m×nVn×nTA_{m\times n}=U_{m\times m}\sum\nolimits_{m\times n}V_{n\times n}^TAm×n=Um×m∑m×nVn×nT我们通常将奇异值由大到小排列,这样∑\sum∑就能由A唯一确定了。与特征值、特征向量的概念相对的:∑\sum原创 2020-07-10 01:03:05 · 263 阅读 · 0 评论 -
机器学习---数学基础加强(2)概率与统计
常见的概率分布分布公式期望方差二项分布f(X=k)=n!k!(n−k!)pk(1−p)n−kf(X = k) = \frac{{n!}}{{k!(n - k!)}}{p^k}{(1 - p)^{n - k}}f(X=k)=k!(n−k!)n!pk(1−p)n−knpnp(1-p)高斯分布f(X)=12πexp(−(x−μ)22σ2)f(X) = \frac{1}{{\sqrt {2\pi } }}\exp \left( { - \frac{{{{\left( {x原创 2020-07-06 00:03:00 · 255 阅读 · 0 评论 -
机器学习---数学基础加强(1)
什么是机器学习机器学习是人工智能的分支。我们使用计算机设计一个系统改过训练数据按照一种方式进行学习。随着训练次数的增加,该系统可以在性能上不断的进行改进与学习,通过参数优化的学习模型,能够用来预测相关问题的输出。机器学习的一般流程数据收集==》数据清洗==》抽取特征工程==》数据建模==》模型的使用机器学习的方法需要先进行工具原理的了解,之后才能进行数据的选择数学基础导数一个导数简单的说指的是曲线的斜率。而二阶导数则是只的斜率变化的快慢,反应了曲线的凹凸性。...原创 2020-06-29 21:50:59 · 309 阅读 · 0 评论 -
机械学习基础(2)数据可视化
数据可视化原创 2020-06-21 19:26:29 · 184 阅读 · 0 评论 -
机械学习基础(1)数据科学包 pandas基本应用
PandasPandas 是 Python 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas的目标是成为 Python数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力,Pandas离这个目标已经越来越近了。...原创 2020-06-18 23:15:03 · 168 阅读 · 0 评论 -
机械学习基础(0)数据科学包 numpy
numpypandas原创 2020-05-24 20:25:34 · 148 阅读 · 0 评论 -
吴恩达—机器学习基础(1)《什么是机器学习》
什么是机器学习简单的可以理解为,程序根据设定的规则P与经验E中学习并总结出规律并提升按照规则P的表现。监督学习已经对样本做出标记,根据已经标记的数据进行学习,并根据已经总结出的规律对一些未分类的数据进行分类监督学习一般分为两个方面,一个为Regression一种为ClassificationRegeression 回归 : 预测连续的输出值Classification 分类:预测离散的输出无监督学习数据样本没有被标记,...原创 2020-05-24 16:51:53 · 122 阅读 · 0 评论