机器学习算法
Bingoyear
自信人生二百年,会当击水三千里。
展开
-
Power Iteration算法-Hessian矩阵特征值
利用幂迭代法,计算黑塞矩阵的特征值。上图中V是随意选的与WiW_iWi同维度的向量,利用1-n代梯度gig_igi,H为黑塞阵。最后i=n时,Hv=d(gv)dWn=d(gnTv)dWnHv=\frac{d(gv)}{dW_n}=\frac{d(g_{n}^{T}v)}{dW_n}Hv=dWnd(gv)=dWnd(gnTv)v=Hv∣∣Hv∣∣v=\frac{Hv}{||H...原创 2021-02-23 15:57:29 · 1283 阅读 · 0 评论 -
由极大似然估计推导损失函数——Logistic回归
1、损失函数推导假定yyy服从于Bernoulli分布,也即f(y)=py(1−p)1−yf(y)=p^y(1-p)^{1-y} f(y)=py(1−p)1−y其中y=0,1参照李航《统计学习方法》第二版p93解法,易得对数似然函数为L(w)=∑i=1N[yi(wxi)−log(1+exp(wxi))]L(w)=\sum_{i=1}^{N}[y_i(wx_i)-log(1+exp(wx_i))]L(w)=i=1∑N[yi(wxi)−log(1+exp(wxi))]所以,lo原创 2020-08-03 21:35:56 · 1209 阅读 · 0 评论 -
gensim库的一些使用
1、gensim.models.word2vec1)训练出模型2)两词的相似度3)某个词的相关词4)好-坏,美-丑,找出某个词的对应词5)从几个词中寻找不合群的词6)导出词向量模型的训练,依据分词后的预料文本2、gensim.corpora.Dictionar1)gensim.corpora.Dictionar 生成词典2)doc2bow,词袋模型,句中每个词的(ID,词频)...原创 2019-03-18 22:34:08 · 821 阅读 · 0 评论 -
由极大似然估计推导损失函数——线性回归
一般的线性回归是由(x1,x2,...,xn)(x_1,x_2,...,x_n)(x1,x2,...,xn)预测yyy,损失函数采用均方差函数MSE=1m∑i=1n∥y^2−y2∥2MSE=\frac{1}{m}\sum_{i=1}^{n}\left\|\hat{y} ^2-y^2\right\|^2MSE=m1∑i=1n∥∥y^2−y2∥∥2。想象输入同样的X,预测值y^2\h...原创 2019-03-07 12:23:40 · 2262 阅读 · 1 评论 -
机器学习实战笔记-支持向量机
1、之前的困惑先找到支持向量,再最大化支持向量间的间隔。为什么支持向量的点所在直线为 wx+b=1或-1假设超平面wx+b=0正确分类:yi=1(红色),-1(蓝色)wxi+b>=0, yi=1wxi+b<=0, yi=-1假设超平面位于间隔区域的中间位置,离超平面最近的数据点的距离为d,左右两面至少各有一点。(关键)那么有同除以d,令w=w/d||w||有...原创 2019-02-20 09:11:13 · 263 阅读 · 0 评论 -
机器学习实战笔记-KNN
1、K近邻优点:分类精度高、对异常值不敏感缺点:计算量大,空间复杂度高数值型和标称型数据2、建模步骤数据归一化:因计算距离,特征之间需无差别(特别注意点)计算待测样本点与所有样本的距离,选取前k个,选取多数所占的类别3、改进约会网站的配对结果特征是人的特征,标签(喜欢,一般喜欢,不喜欢)根据分类器,输入某个人的相应特征,可以判断出自己对他的情感状态,是否符合预期标准4、手写识别...原创 2019-02-19 11:40:45 · 108 阅读 · 0 评论 -
机器学习实战笔记-决策树ID3
1、决策树优点:数据缺失不敏感、可处理相关度不高的特征集合缺点:易出现过度匹配2、模型输入:dataset : (100,3) 样本数*特征label : (100,1) 样本数输出:树结构保存树结构,输入待预测的样本,输出预测分类结果3、建模步骤选出划分特征:计算香农熵,选取最大一次计算每个特征的香农熵,建立树。结束条件:遍历完所有的特征,或者,每个分支下的所有实例都具有...原创 2019-02-19 11:15:49 · 132 阅读 · 0 评论 -
机器学习实战-朴素贝叶斯
1、优点:可处理多分类问题缺点:对数据输入格式敏感2、文档分类特征选取:将每个词的出现与否看做特征,0和1 (文档词集模型)词典:统计所有文档中单词,排序,构成list,(word_dim,1)文档词向量:按照词典中单词,对应每一文档,转化为数字。每一文档,(word_dim,1)文档标签:正常言论、非正常p(c):先验概率,可直接求出,0类样本数 / 总样本数p(wi/c0)...原创 2019-02-19 10:45:00 · 139 阅读 · 0 评论 -
机器学习实战笔记-Logistic回归
1、Logistics回归优缺点优点:计算简单缺点:容易欠拟合,分类精度不高2、梯度上升法:求最大值梯度下降法:求最小值3、list转化为matrix更易于计算datamatrix=mat(datalist)m,n=shape(datamatrix)weights=ones((n,1))h = sigmoid(dataMatrixweights)# (100,1)error =...原创 2019-02-19 10:10:56 · 932 阅读 · 0 评论