机器学习基础
文章平均质量分 74
gg_gogoing
这个作者很懒,什么都没留下…
展开
-
梯度下降 && 线性回归 && 逻辑回归 && softmax
生成模型和判别模型不同判别方法:由数据直接学习决策函数Y=f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。典型的判别模型包括k近邻,感知级,决策树,支持向量机等。生成方法:由数据学习联合概率密度分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(原创 2017-09-02 10:49:39 · 371 阅读 · 0 评论 -
KNN && KD树
KNN 给定一个训练数据集,对新的输入实例,在数据集中找到与该实例最近邻的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。 需要调节的参数1、K的个数 2、距离度量 3、分类决策规则(服从多数) import numpy as np import operator def KNN(x,dataset,k): datasetSize=dataset.shape[0]原创 2017-09-03 18:41:28 · 353 阅读 · 0 评论 -
LDA主题模型三连击-入门/理论/代码
本文将从三个方面介绍LDA主题模型——整体概况、数学推导、动手实现。 关于LDA的文章网上已经有很多了,大多都是从经典的《LDA 数学八卦》中引出来的,原创性不太多。 本文将用尽量少的公式,跳过不需要的证明,将最核心需要学习的部分与大家分享,展示出直观的理解和基本的数学思想,避免数学八卦中过于详细的推导。最后用python 进行实现。 概况第一部分,包括以下四部分。 为什么需要 LDA是原创 2017-12-10 14:38:00 · 1159 阅读 · 1 评论 -
蓄水池算法
在一个未知的池子里选1个数字,让他们被选择概率一致。 假设n的时候,前n个数字被选择的概率都是1n \frac{1}{n} 当为n+1时候,当前n+1这个数,我们选择的概率是1n+1\frac{1}{n+1},其余数字的概率是nn+1\frac{n}{n+1},那么一共有n个数字的概率是1n\frac{1}{n} 所以 n∗1n∗1n+1=1n+1 n * \frac{1}{n} * \fr原创 2017-12-10 21:08:29 · 757 阅读 · 0 评论 -
word2vec
例子word2vec就是对word做了一个embedding操作,简单来说就是将原有用one-hot编码的预料库(一般来说百万级别)转为embedding形式(几百维)。 比如:维基百科预料库包含的词有100W,将其使用one-hot编码。 “The dog barked at the mailman” 基于这个句子,可以构建一个大小为5的词汇表(忽略大小写和标点符号):(“the”,原创 2017-12-11 13:34:18 · 507 阅读 · 0 评论