![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
Even丶666
记录学习(python,深度学习,点云)
展开
-
十二、HMM 隐马尔可夫模型(未完)
深度学习兴起之前HMM主要用于语音识别,深度学习兴起之后,HMM主要用于隐式信息挖掘和数据分析。在这里没有用到词典,在没有词典的前提下,利用HMM可以进行分词。但是使用词典,词典里没有出现的词可能分词会出现问题。HMM不仅可以进行分词,还可以预测与轨迹或时间序列相关的量。比如股票、台风等。凡是与时间序列或空间序列相关的都可以。由贝叶斯网络知,图中A在不可观测的情况下B与C不独立,因此z1不可观测的情况下,x1和右边所有都不独立。在这种情况下(不可观测),可以考虑使用HMM来处理。它处理的是结原创 2021-09-02 11:02:35 · 175 阅读 · 0 评论 -
十一、主题模型
跟特征提取有关,隐式特征提取(EM算法),比如给定文档或者词,推断隐的主题是什么。CNN出现后,在图像方面的应用减少。我们做词向量分类通常将所有词取出来,形成一个词向量(不重复),然后在每个词对应的位置,出现的位置标为1,没出现的位置标为0。这样每个文档的长度都是相等的。通过LR,SVM,RF,NB等方法可以进行分类。但是这种方式未必总是合适的,比如出现“花”这个词,可能出现花朵或者花费,出现两个意思,它会直接映射到词向量中。因此我们应该通过词,看一下词背后的主题是什么,这就是主题模型的直观理解..原创 2021-08-31 14:25:47 · 90 阅读 · 0 评论 -
十、贝叶斯网络
一、朴素贝叶斯二、朴素贝叶斯举例 文本分类三、贝叶斯网络无向图:马尔可夫网络。有的教材把X叫因,把Y叫果,但是这种表表述不太准确。比如X是雄鸡打鸣,Y是天亮了,X和Y不独立,但是Y不是X的果。朴素贝叶斯特征之间是条件独立的,可以理解为最朴素的贝叶斯网络,它把特征之间的有向边都扔了。smoking是概率,其他都是条件概率。当有了一个网络结构和条件概率表,问题就解决了。四、贝叶斯网络条件独立的三种特殊形状即马尔可夫模型的结论。将节点扩...原创 2021-08-30 15:03:47 · 196 阅读 · 0 评论 -
九、EM算法
GMM可以理解为多个服从不同均值和方差的正态分布,混合在一起,可对其进行聚类,可以用EM算法估计参数。后验概率是有用的,比如在工业中,达到不同的值,给出不同的预警。一、GMM算法直观理解GMM问题引出:如果我们知道身高对应的是男性还是女性,求四个估计值,直接套用最大似然得到的公式即可。但是如果不告诉男性还是女性,仅仅告诉身高该如何处理呢?由于多了一个变量pi,所以难以用求偏导的方法求解。初始值不一样,一定程度上会影响EM的结果。注意:多个高斯分布混合起来未必是高斯分布.原创 2021-08-30 10:01:01 · 99 阅读 · 0 评论 -
八、聚类
聚类是一种无监督学习算法。输入x为mn维,通过聚类聚为6簇,使得输出为m6维。有种降维的感觉。1.相似度因为聚类是通过样本间的联系来分成多个簇,所以要进行相似度的度量。2、kmeans改进方法一:计算一下四个簇的均值,MSE;如图,其中两个簇的MSE会比较小,均值会比较接近,说明这两个簇距离比较近,应该分为一个簇。同样地,第一个簇MSE比较大,应该分为两个簇。因此在最左边的簇中重新随机选取两个点进行计算,右边两个比较近的簇随机选取一个点进行计算。即二分kmeans方法原创 2021-08-27 10:31:06 · 168 阅读 · 0 评论 -
七、支持向量机 SVM
有了CNN卷积神经网络后,图像不再使用人工选择特征+SVM,但SVM仍有其研究价值。SVM强于logistic回归。软间隔并不要求SVM能全分对,加核函数使得SVM非线性。一、线性可分支持向量机两条虚线上的向量为支持向量。调参小技巧,线性核只有C一个参数,随着C的增大,过渡带越窄;高斯核函数除C,还有γ参数,随着γ的增大,非线性越明显,随着C的增大,过渡带越窄。上式为点到直线距离公式先取最小再取最大,即先求出距离分割超平面最近的点,再求这些点距离超平面距离最大时的w和b..原创 2021-08-24 10:43:53 · 69 阅读 · 0 评论 -
作业-boosting
1.GBDT和随机森林的区别是什么?随机森林:随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:a 从原始样本中采用有放回抽样的方法选取n个样本;b 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点;c 重复m次,获得m个决策树;d 对输入样例进行预测时,每个子树都产生一个结果,采用多数投票机制输出。随机森林的随机性主要体现在两个方面:a 数据转载 2021-08-23 10:00:07 · 96 阅读 · 0 评论 -
作业-随机森林
随机森林为何可以提高正确率, 且降低过拟合程度?随机森林是一种集成算法,它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值。由于生成每棵树的时候,每棵树仅选取部分特征,而且对于样本也是有放回的选择,这样的随机性降低了过拟合程度。而且采用的是集成算法,本身精度得到加强。决策树后剪枝可以怎么操作?为了提高决策树的泛化能力,需要对树进行剪枝,把过于细分的叶结点(通常是数据量过少导致噪声数据的影响增加)去掉而退回到其父节点或更高结点。预剪枝:在每一次实际对结点进行进一步划分之前..转载 2021-08-23 09:47:16 · 275 阅读 · 0 评论 -
六、提升boost
一、提升将上一个分类器分错的样本,下次进入分类器时权重设置的大一些。注意一下梯度下降和梯度提升的区别:梯度提升是在损失函数上进行的,梯度下降是在参数更新上进行的。二、GBDT(梯度提升决策树)三、xgboost...原创 2021-08-22 00:20:53 · 94 阅读 · 0 评论 -
五、决策树与随机森林实战
一、决策树的评价二、决策树的过拟合决策树过拟合主要有两种处理方法:1.剪枝,2.随机森林。剪枝分为预剪枝和后剪枝。预剪枝是指在建立决策树的过程中进行剪枝,如给定树的最大高度、每个叶结点包含的样本最少个数、最小熵值等。后剪枝见ppt三、bagging策略bagging策略常结合决策树等弱分类器,常常不与SVM、logistic回归等强分类器结合(也不是不可)。通过概率论的知识推导,可得BoostStrap每次约有36.79%的样本不会出现在所采样的样本集合中,这些数据成为袋外数据原创 2021-08-21 11:20:16 · 158 阅读 · 0 评论 -
四、决策树与随机森林
分类结果只与叶子结点有关,最后一个结点可能做分类也可能做回归。(房价预测)决策树的最大优点是训练速度快,因此可以用多个决策树集成更优的模型。举个例子:有x1,x2…xn n个特征,选取一个特征把根节点N分成N1和N2,N=N1+N2,后面都是递归的。假如有135个红色和蓝色的点,如果使用x1特征对其进行分类,得到红色和蓝色的概率分别为70/135和65/135;使用x2特征对其进行分类,得到红色和蓝色的概率分别为10/70和60/70,那么显然是x2特征好。一、关于熵的概念1、熵那么我们..原创 2021-08-20 10:45:11 · 236 阅读 · 0 评论 -
三、回归实践
一、关于指标R平方二、局部线性回归三、logistic回归推导:三、softmax回归四、一些关于ROC、AUC的指标其中TP为正样本预测为正样本。FN为模型预测为负样本,但预测错了,实际为正样本。FP为模型预测为正样本,实际为负样本。TN为模型预测为负样本,实际为负样本。这四个值组成的矩阵称为混淆矩阵。理想情况下FP和FN都为0,TP为所有正样本,TN为所有负样本。TPR为正确预测出的正样本占所有真实正样本的比率。FPR为错误预测为正样本占所有真实原创 2021-08-19 10:35:42 · 85 阅读 · 0 评论 -
二、回归
回归是指预测值为连续值,分类是指预测值为离散值。logistic回归虽然叫回归,但是它是二分类最常用的方法。梯度下降略。原创 2021-08-18 16:25:27 · 74 阅读 · 0 评论 -
作业1。
1,除准确率(accuracy)外,还有哪些评价分类模型性能的指标?为什么会有这些指标?2.什么是混淆矩阵?TPR和FPR的含义是什么?答:1.除accuracy外,还有precision,recall,F1-measure,AUC,AIC/BIC。首先先引入四个概念:TP(true positive):正样本预测为正样本。FN(false negative):正样本预测为负样本。TN(true negative):负样本预测为负样本。FP(false positive):负样本预测为正样本。原创 2021-08-18 10:35:21 · 80 阅读 · 0 评论 -
一、数据清洗和特征选择
鸢尾花数据集有4个特征x1,x2,x3,x4,标签y。若要对数据进行降维,在二维平面上可视化,可以考虑PCA算法。PCA算法:结论:PCA算法对矩阵A经过降维后得到的向量为矩阵ATA最大的k个特征值对应的k个特征向量构成的矩阵。理解:PCA算法经过降维后保留的为最主要的k个信息,因此投影方向应为含信息量最大的方向,可以理解为投影后,在投影轴上分布最分散,即方差最大。因此证明该定理应当先找到投影轴,然后将数据投影到该轴上,最后计算方差使之最大。证明:假设对m*n阶矩阵A做PCA变换,投影轴为向量u.原创 2021-08-18 10:01:52 · 434 阅读 · 0 评论