machineLearning
文章平均质量分 90
BeforeEasy
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯推导
先导说明我们经常用MLE最大似然来构造模型的目标函数,最大似然的目的是让观测到的数据概率最大,所以最大化的就是训练数据的概率。而MAP后验是在观测数据之上又加上了先验概率,要让模型符合先验概率。当数据足够多的时候,MAP趋近于MLE。求极值最容易想到的方法是求导置零。贝叶斯定理:也就是联合概率P(A,B)=P(B,A)=P(A|B)*P(B)=P(B|A)*P(A)朴素贝叶斯是生成...原创 2020-02-12 15:46:35 · 799 阅读 · 0 评论 -
Python TFIDF计算文本相似度
本文主要参考https://stackoverflow.com/questions/12118720/python-tf-idf-cosine-to-find-document-similaritStackOverflow的回答主要是使用sklearn的TfidfTransformercosine_similarity就是计算L2归一化的向量点乘。如果x,y是行向量,它们的cosine sim...原创 2020-02-02 22:25:28 · 8570 阅读 · 0 评论 -
如何写一个拼写纠错器 -- how to write a spelling corrector
本文是经典的how to write a spelling corrector的大致翻译。作者两个朋友向他夸赞google的拼写纠正功能,输入speling, google就会立即问你是不是找spelling相关的结果。作者的这两个朋友都是高级的工程师和数学家,却也不知道这个的原理。由此,作者想要简单解释一下spelling corrector背后的原理。工业级别的实现非常复杂,但是简单一些的...翻译 2020-01-29 16:23:36 · 1007 阅读 · 1 评论 -
Python nltk Learning to classify texts
来自http://www.nltk.org/book/ch06.html Learning to classify texts分类:classification:就是为输入选择正确的标签分类分为两种:supervised classification 和 unsupervised classification 这次先说supervised classification:如果训练集中每个输入都有正确...原创 2018-02-10 11:21:08 · 450 阅读 · 0 评论 -
特征缩放
面对多维特征问题的时候,保证这些特征都具有相近的尺度,将帮助梯度下降算法更快地收敛。并且,当有多个特征向量的时候,如果其中一个变化范围比较大,根据上次所说的多特征梯度下降法算法可以知道,该特征向量的参数可能会变化范围很大,从而主导整个梯度下降的过程,使得整个收敛轨迹变得复杂,让收敛的时间更长。定义特征缩放是用来标准化数据特征的范围。方法调节比例(Rescaling)这种方法是将数据的...原创 2019-04-13 16:10:48 · 805 阅读 · 0 评论 -
信息、熵、信息增益、基尼指数
信息信息是用来消除随机不确定性的东西,放在机器学习的语境里是这样的,每个类xi的信息为:I表示信息,p(xi)表示指xi的概率熵熵是对随机变量不确定性的度量,是信息的期望值熵只依赖于随机变量的分布,和其取值没有关系熵是用来度量不确定的,所以熵越大,X=xi的不确定性越大给了样本集合D后,其经验熵为:k表示有k个分类,|CK|为样本集中属于K类的样本数条件熵在一个条件下,随...原创 2019-04-18 15:07:05 · 788 阅读 · 0 评论 -
tensorflow手动实现线性回归梯度下降
原理模型表示:数据要进行缩放归一化代价函数:i表示第i个训练实例 j表示第j个特征同时更新theta用矩阵表示就是:error = y_pred - y – shape(m,1)拆开用矩阵表示一下最后的求导更新过程:假设训练数据规模m*n,m条训练数据,每条数据n个特征,所以有theta0 theta1 — thetan代码如下:准备数据:import nu...原创 2019-08-27 17:59:06 · 274 阅读 · 1 评论