数据挖掘/机器学习
文章平均质量分 76
tony_xjz
这个作者很懒,什么都没留下…
展开
-
回归(regression)、梯度下降(gradient descent)
回归与梯度下降: 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说weka。转载 2013-03-17 16:43:20 · 495 阅读 · 0 评论 -
自然语言处理1-马尔科夫链和隐马尔科夫模型(HMM)
基于统计的语言模型比基于规则的语言模型有着天然的优势,而(中文)分词是自然语言处理的基础,接下来我们将注重介绍基于统计的中文分词及词性标注技术。为此做以下安排:首先介绍一下中文处理涉及到基本概念,接着分析开源的一些基于统计的中文分词原理。中文分词涉及的基本概念有马尔科夫链,隐马尔科夫模型(HMM),Ngram模型,最大熵马尔科夫模型(MEMM),条件随机场(CRF)等1、马尔科夫链通俗原创 2013-06-03 17:39:16 · 8552 阅读 · 0 评论 -
自然语言处理4-最大熵马尔科夫模型(MEMM)
最大熵马尔科夫模型(MEMM)定义:MEMM是这样的一个概率模型,即在给定的观察状态和前一状态的条件下,出现当前状态的概率。 MEMM依赖图Ø S表示状态的有限集合Ø O表示观察序列集合Ø P原创 2013-06-12 20:16:53 · 7486 阅读 · 0 评论 -
自然语言处理5-条件随机场(CRF)
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型;条件随机场模型作为一个整句联合标定的判别式概率模型,同时具有很强的特征融入能力,是目前解决自然语言序列标注问题最好的统计模型之一。条件随机场的缺点是训练的时间比较长。条件随机场定义 设G=(V,E)是一个无向图,Y=(Y原创 2013-06-12 20:28:40 · 2896 阅读 · 0 评论 -
自然语言处理3-N-gram模型
设wi是文本中的任意一个词,如果已知它在该文本中的前1个词wi-1,便可以用条件概率P(wi|wi-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为: P(W)原创 2013-06-12 20:02:48 · 1976 阅读 · 0 评论 -
模拟退火算法
一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如图1所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为转载 2013-04-06 17:15:55 · 613 阅读 · 0 评论 -
卡方检验用于特征选择
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在转载 2013-04-06 12:04:58 · 637 阅读 · 0 评论 -
机器学习中的相似性度量
在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6转载 2013-04-06 18:10:26 · 694 阅读 · 0 评论 -
遗传算法
遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。 一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: 种群(Population):生物的进化以群体的形式进行,这样的一个群体称为种群。 个体转载 2013-04-06 17:20:43 · 679 阅读 · 0 评论 -
卡方检验基础
x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。 一、四格表资料的x2检验 例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较转载 2013-04-06 12:02:48 · 2166 阅读 · 0 评论 -
基于贝叶斯算法的文本分类算法
因为要做一个关于数据挖掘的算法应用PPT,虽然知道很多数据挖掘的算法怎么使用,但是需要讲解它们的原理,还真的需要耗费很多精力,之前做一个曲线拟合,已经发在博客里,现在做贝叶斯算法的基础原理。1、基本定义:分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物,x的集合记为X,称为属性集。类别转载 2013-03-17 16:50:14 · 742 阅读 · 0 评论 -
自然语言处理2-隐马尔科夫模型(HMM)-forward algorithm(前向算法)和Viterbi(维特比算法)
1.隐马尔科夫模型(HMM)实例:隐藏状态:Sunny,Cloudy,Rainy观察状态:Dry,Dryish,Damp,Soggy初始向量状态转移矩阵('A' ) weatheryesterday weather today SunnyCloudyRainy原创 2013-06-04 19:17:16 · 1602 阅读 · 0 评论