麓山coder

记录成长

自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

文档余弦相似度

(1)使用TF-IDF算法,找出两篇文章的关键词;  (2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);  (3)生成两篇文章各自的词频向量;  (4)计算两个向量的余弦相似度,值越大就表示越相似。

2017-04-08 17:14:14

阅读数 492

评论数 0

TF-IDF

TF-IDF对于一篇文章,怎样抽取其中的关键字。首先容易想到的是计算每个词的词频(term frequence),然后然后按照词频进行排序,选取词频最高的几个词。然而这样的结果必然是 ‘的’,‘是’ .. .这之类的词的频率比较高。我们可以过滤掉这些常见的词。 词频=词频文章长度 词频 = \f...

2017-04-08 17:11:35

阅读数 275

评论数 0

BFGS算法

BFGS算法牛顿迭代算法函数f(x) 的二阶泰勒展式 f(x)=f(x(k))+gTk(x−x(k))+12(x−x(k))THk(x−x(k))gk=f′(x(k))Hk=[∂2f∂xi∂xj]n∗n f(x) = f(x^{(k)}) + g_k^T(x-x^{(k)}) + \frac1...

2017-03-29 10:30:06

阅读数 1443

评论数 0

高斯混合聚类

高斯混合聚类高斯混合模型p(Y|θ)=∑k=1Kakϕ(Y|θk) p(Y|\theta)= \sum_{k=1}^K a_k \phi(Y|\theta_k) 其中 ϕ(Y|θk)=12π‾‾‾√δkexp(−(y−uk)22δ2k)∑k=1Kak=1 \phi(Y|\theta_k) = ...

2017-03-22 17:01:06

阅读数 955

评论数 0

EM算法

EM算法首先举一个含有隐变量的例子有三枚硬币A,B,C,首先抛A硬币,如果A正面朝上则抛B,如果A 反面朝上则抛C,我们只记录B,C硬币的结果。这个过程重复N次得到观测到的结果Y={y1,y2,…,yN}Y=\{y_1,y_2,…,y_N\},现在要求计算出A,B,C正面朝上的概率分别是多少。我们...

2017-03-22 16:41:00

阅读数 237

评论数 0

异常检测

异常检测假设样本由N维高斯分布产生,由高斯分布可知,大多数的样本概率密度比较高,少量的样本的概率密度比较小,所以我们可以先用正常的样本训练出高斯分布,然后用这个模型来计算新的样本,如果其概率密度小于某一值,就可以认为该样本是异常的。如果样本有N个属性,那么可以训练出N维高斯分布,但由于计算量太大了...

2017-03-22 15:46:40

阅读数 348

评论数 0

正则化

正则化正则化一般的形式如下 ∑i=1ML(yi,f(xi;θ))+λJ(f) \sum_{i=1}^M L(y_i, f(x_i;\theta)) + \lambda J(f) 正则化项一般是模型复杂度的单调递增函数。当模型越复杂的时正则化项越大,而当模型越复杂的时候就越容易产生过拟合。因...

2017-03-22 15:22:35

阅读数 213

评论数 0

GBDT(Gradient Boosting Decision Tree)

GBDT(Gradient Boosting Decision Tree)1.提升树提升树模型的基分类器为决策树,每次训练的结果影响下一次训练的决策树。我们这里只谈回归问题,训练的结果为M个决策树相加。对于二分类问题只需把AdaBoost算法的基分类器换为决策树。用前向分步模型表示 fm(x)=...

2017-03-21 16:25:32

阅读数 234

评论数 0

局部加权线性回归(LWLR)

局部加权线性回归(LWLR)对于线性回归算法,容易出现欠拟合,而多项式回归又容易出现过拟合。因此出现了局部加权回归模型y(i)=θT⋅x(i) y^{(i)}=\theta^T \cdot x^{(i)} 和线性回归的模型相同,但是对于每一个预测点,θ\theta都需要重新计算,并不是固定不变的。...

2017-03-17 11:00:06

阅读数 2422

评论数 0

KMeans

给定样本集D=x1,x2,⋯,xmD={x_1,x_2,\cdots, x_m}, “k均值”算法针对聚类所得簇划分C=C1,⋯,CkC={C_1,\cdots, C_k}最小化平方误差 E=∑i=1K∑x∈ci||x−ui||2 E= \sum_{i=1}^K\sum_{x\in c_i}||...

2017-02-22 20:30:31

阅读数 200

评论数 0

Bagging算法与随机森林

一、自助采样法给定包含m个样本的数据集D,我们对它进行采样产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采样到;这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’,这就是自助采样的结果。显然有一部分样本会在...

2017-02-22 11:00:59

阅读数 2687

评论数 0

AdaBoost算法

一、算法思想对于分类问题而言,给定一个训练数据集,求比较粗糙的分类规则要比求精确的分类规则容易得多。集成学习就是从弱学习算法出发,反复学习,得到一系列弱分类器,若后组合这些弱分类器,构成一个强分类器。大多数的集成学习方法都是改变训练数据集的概率分布,针对不同的训练数据分布调用弱学习算法学习一系列分...

2017-02-21 16:17:38

阅读数 401

评论数 0

CART算法

一、最小二乘回归树算法输入:训练师数据集D=(x1,y1),(x2,y2),⋯,(xn,yn)D={(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)}  , y为连续变量输出:回归树f(x)在训练数据集所在输入空间中,递归的将每个区域划分为两个子区域并决定每个子区域上的输出...

2017-02-20 16:59:43

阅读数 307

评论数 0

决策树模型

一、决策树学习决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类过程。开始,构建根结点,将所有训练数据集都放在根结点。选择一个最优特征,按照这一特征将训练数据集分割成子集,使得各个子集有一个在当前条件下最好的分类。如果这些子集已经能够被基...

2017-02-20 16:58:07

阅读数 550

评论数 0

逻辑回归

一、逻辑斯蒂分布设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数 F(x)=P(X≤x)=11+e−(x−μ)/γf(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2(1)(2) \begin{eqnarray} F(x) = P(X \leq x) = ...

2017-02-18 17:20:36

阅读数 181

评论数 0

支持向量机

一.硬间隔支持向量机假设给定一个特征空间上的训练数据集 T={(x1,y1),(x2,y2)⋯,(xn,yn)} T=\{(x_1,y_1),(x_2,y_2)\cdots,(x_n,y_n)\} 其中,xi∈Rn,yi∈{+1,−1},i=1,2,⋯,Nx_i \in R^n , y_i ...

2017-02-18 14:41:46

阅读数 204

评论数 0

朴素贝叶斯(naive bayes)

朴素贝叶斯(naive bayes) 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出概率最大的输出概率y。1 一.训练设输入空间x⊆Rnx\subseteq...

2017-01-11 17:49:46

阅读数 469

评论数 0

自编码器

自编码器对于深层的前馈神经网络,如果使用误差逆传播算法进行训练,将会出现三大问题: 1. 神经网络参数数量巨大,极易导致过拟合。 2. 网络底层的权值难以变化,出现梯度弥散现象。 3. 深度神经网络的损失函数为非凸函数,如果随机初始化参数会使优化过程陷入局部极直。自编码器可以用三层前馈神经网...

2016-12-04 19:50:37

阅读数 618

评论数 0

mysql之windows 解压版安装

mysql之windows 解压版安装一、下载mysql 在[mysql官网](http://dev.mysql.com/downloads/mysql/ )上下载windows版的mysql。 二、配置环境变量将mysql 安装包解压,放置任意目录。 在系统环境变量中添加mysql的bin目录路...

2016-11-18 21:16:50

阅读数 229

评论数 0

BP神经网络之理论推导

BP神经网络理论推导一、 神经网络简介神经元细胞在19世纪,人们发现了人脑神经细胞传导兴奋的规律,计算机科学家们由此受到启发,提出来人工神经网络,希望用这个模型来模拟人脑。神经元细胞有几个重要组成:轴突,树突,细胞体。轴突能将神经元的兴奋传递给其连接的神经元,而树突能够接收其他神经元传递过来...

2016-11-16 19:15:39

阅读数 379

评论数 0

提示
确定要删除当前文章?
取消 删除