机器学习
文章平均质量分 84
J-Ombudsman
day day up
展开
-
损失函数 目标函数
转载:http://blog.csdn.net/shenxiaoming77/article/details/51614601损失函数,目标函数都是用来衡量,模型在该参数下的好坏。MLE最大似然估计就是一种简单的衡量参数的目标函数。------------------------------------------------------------------------------转载 2017-03-20 17:16:08 · 3126 阅读 · 0 评论 -
常用的概率分布:二项式分布,贝塔分布,狄里克雷分布
知识点:伯努利分布、二项式分布、多项式分布、先验概率,后验概率,共轭分布、贝塔分布、贝塔-二项分布、负二项分布、狄里克雷分布,伽马函数、分布一,伯努利分布(bernouli distribution)又叫做0-1分布,指一次随机试验,结果只有两种。也就是一个随机变量的取值只有0和1。 记为:0-1分布 或 B(1,p)B(1,p),其中pp表示一次伯努利实验中结果为正或为1的概率原创 2017-04-13 20:38:42 · 16641 阅读 · 0 评论 -
信息检索中常用的评价指标:MAP,nDCG,ERR,F-measure
知识点文本检索常用的评价指标:MAP、nDCG、ERR、F-score/F-measure以及附加的Precision、Recall、AveP、CG、DCG、IDCG、MRR、cascade models一,MAPPrecision(P):准确率(精确度)是指检索得到的文档中相关文档所占的比例,公式如下: precision=|{relevantdocuments}⊆{ret原创 2017-04-10 01:14:51 · 17659 阅读 · 5 评论 -
傅里叶变换和正弦函数和欧拉公式
知识点:重点讲解正弦函数和欧拉公式的关系,以及它们在傅里叶变换中的作用,附加:傅里叶变换和卷积公式这是我第二次学习傅里叶变换,其实第一次就已经懂了时域和频域的关系,也知道一维傅里叶变换就是将一个函数转化为很多频率不同的正弦函数的和,二维图片傅里叶中的频率指的是图像中像素的梯度。频率高的代表图像的变换,频率低表示图像温和。但是我还是不会自己编写代码,最让我不理解的就是为什么DFT的求解方程式就是Xk=原创 2017-06-27 15:43:51 · 37140 阅读 · 4 评论 -
logistic回归
模型知识点:logistic详解,logistic与softmax 与 Lasso regression 与 ridge regression , L0、L1、L2范式 。原创 2017-03-20 20:32:55 · 1122 阅读 · 0 评论 -
降维的四种方法:PCA、LDA、LLE、Laplacian Eigenmaps
知识点:降维的四种方法,PCA、LDA、LLE、Laplacian Eigenmaps注意区分LDA: 信息检索中也有LDA(Latent Dirichlet allocation),主题模型,,表示文档的生成过程:先根据超参选择主题,在根据主题的分布采样得到单词,重复直至文章写完。机器学习降维中也有LAD(Linear Discriminant Analysis),常用来和PCA作转载 2017-04-24 17:36:06 · 8581 阅读 · 0 评论 -
模型优化中的过拟合与欠拟合
知识点:过拟合、欠拟合,以及它们与正则化的权重、模型参数的复杂度、和训练集样本数的关系图转载:http://blog.csdn.net/lonelyrains/article/details/49305795模型不理想时,怎么调整模型?是要更多样本?是要更多或者少的附加其他特征或者多项式特征?正规化的λ参数应该更大或者更小?怎么评价模型是否理想?欠拟合或转载 2017-04-21 09:58:57 · 2180 阅读 · 0 评论 -
最大似然估计、梯度下降、EM算法、坐标上升
主要讲解的是机器学习中参数学习算法之间的区别,以及应用的场景。最大似然估计:其中目标函数是对数似然函数。为了求目标函数取最大值时的theta。有两个关机键步骤,第一个是对目标函数进行求导,第二个是另导数等于0,求解后直接得到最优theta。两个步骤缺一不可。梯度下降:对目标函数进行求导,利用导函数提供的梯度信息,使参数往梯度下降最快的方向移动一小步,来更新参数。为什原创 2017-03-01 21:31:12 · 4877 阅读 · 0 评论 -
狄里克雷平滑(Dirichlet)、线性插值平滑(Linear Interpolated)、拉普拉斯平滑(Laplacian)
一元语言模型(Unigram Language Model)就是关于全部单词上的一个概率分布,它认为每篇文章都对应一个一元语言模型,文章中的单词都是从这个概率分布中采样得到。所以计算文章和查询语句之间的相关性,相当于计算文章对应的一元语言模型产生出查询语句的概率。通常我们统计文档中的单词频率分布来估计文章对应的一元语言模型,但是未出现在文档中的单词的概率就被设置为0了,这显然是不合理的。所以需原创 2017-03-11 11:53:31 · 6851 阅读 · 0 评论 -
熵的总结
知识点:自信息量,熵,交叉熵,相对熵,联合熵, 条件熵,信息增益原创 2017-02-09 19:38:04 · 5660 阅读 · 0 评论 -
SVM
1,svm的损失函数超平面wx+b=0wx+b=0的公式形式有很多,比如w和bw和b同时扩大或缩小相同的倍数,超平面不变。wx+b=0wx+b=0与k∗wx+k∗b=0k*wx+k*b=0是一样的。点x1x_1到超平面wx+b=0wx+b=0的几何距离,也就是实际物理意义的距离,为|wx1+b|||w||\frac{|wx_1+b|}{||w||},无论超平面wx+b=0wx+b=0或k∗原创 2018-01-05 16:09:08 · 455 阅读 · 0 评论