自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (5)
  • 收藏
  • 关注

原创 hadoop2.0 mvn compile -Pnative error

在编译hadoop-2.1.1-beta时出现OPENSSL_INCLUDE_DIR找不到问题missing: OPENSSL_LIBRARIES OPENSSL_INCLUDE_DIR问题解决:后来发现是libssl-dev包没安装sudo apt-get install libssl-dev

2013-10-10 10:32:10 805

原创 自然语言处理5-条件随机场(CRF)

条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型;条件随机场模型作为一个整句联合标定的判别式概率模型,同时具有很强的特征融入能力,是目前解决自然语言序列标注问题最好的统计模型之一。条件随机场的缺点是训练的时间比较长。条件随机场定义 设G=(V,E)是一个无向图,Y=(Y

2013-06-12 20:28:40 2914

原创 自然语言处理4-最大熵马尔科夫模型(MEMM)

最大熵马尔科夫模型(MEMM)定义:MEMM是这样的一个概率模型,即在给定的观察状态和前一状态的条件下,出现当前状态的概率。                                                                                      MEMM依赖图Ø  S表示状态的有限集合Ø  O表示观察序列集合Ø  P

2013-06-12 20:16:53 7510

原创 自然语言处理3-N-gram模型

设wi是文本中的任意一个词,如果已知它在该文本中的前1个词wi-1,便可以用条件概率P(wi|wi-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:                   P(W)

2013-06-12 20:02:48 2019

原创 自然语言处理2-隐马尔科夫模型(HMM)-forward algorithm(前向算法)和Viterbi(维特比算法)

1.隐马尔科夫模型(HMM)实例:隐藏状态:Sunny,Cloudy,Rainy观察状态:Dry,Dryish,Damp,Soggy初始向量状态转移矩阵('A' ) weatheryesterday   weather today SunnyCloudyRainy

2013-06-04 19:17:16 1612

原创 自然语言处理1-马尔科夫链和隐马尔科夫模型(HMM)

基于统计的语言模型比基于规则的语言模型有着天然的优势,而(中文)分词是自然语言处理的基础,接下来我们将注重介绍基于统计的中文分词及词性标注技术。为此做以下安排:首先介绍一下中文处理涉及到基本概念,接着分析开源的一些基于统计的中文分词原理。中文分词涉及的基本概念有马尔科夫链,隐马尔科夫模型(HMM),Ngram模型,最大熵马尔科夫模型(MEMM),条件随机场(CRF)等1、马尔科夫链通俗

2013-06-03 17:39:16 8583

转载 机器学习中的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。  本文的目的就是对常用的相似性度量作一个总结。本文目录:1.欧氏距离2.曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5.标准化欧氏距离6

2013-04-06 18:10:26 695

转载 遗传算法

遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。  一.进化论知识   作为遗传算法生物背景的介绍,下面内容了解即可:  种群(Population):生物的进化以群体的形式进行,这样的一个群体称为种群。  个体

2013-04-06 17:20:43 683

转载 模拟退火算法

一. 爬山算法 ( Hill Climbing )         介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。         爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定能搜索到全局最优解。如图1所示:假设C点为当前解,爬山算法搜索到A点这个局部最优解就会停止搜索,因为

2013-04-06 17:15:55 631

转载 卡方检验用于特征选择

前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。  大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在

2013-04-06 12:04:58 644

转载 卡方检验基础

x2检验(chi-square test)或称卡方检验,是一种用途较广的假设检验方法。可以分为成组比较(不配对资料)和个别比较(配对,或同一对象两种处理的比较)两类。    一、四格表资料的x2检验    例20.7某医院分别用化学疗法和化疗结合放射治疗卵巢癌肿患者,结果如表20-11,问两种疗法有无差别?表20-11 两种疗法治疗卵巢癌的疗效比较

2013-04-06 12:02:48 3097

转载 基于贝叶斯算法的文本分类算法

因为要做一个关于数据挖掘的算法应用PPT,虽然知道很多数据挖掘的算法怎么使用,但是需要讲解它们的原理,还真的需要耗费很多精力,之前做一个曲线拟合,已经发在博客里,现在做贝叶斯算法的基础原理。1、基本定义:分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物,x的集合记为X,称为属性集。类别

2013-03-17 16:50:14 750

转载 回归(regression)、梯度下降(gradient descent)

回归与梯度下降:   回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。   用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说weka。

2013-03-17 16:43:20 504

原创 Oozie Error: E0902 : E0902: Exception occured: [org.apache.hadoop.ipc.RemoteException: User: oozie i

bin/oozie job -oozie http://hadoop-01:11000/oozie -config /tmp/examples/apps/map-reduce/job.properties -runError: E0902 : E0902: Exception occured: [org.apache.hadoop.ipc.RemoteException: User: oozi

2012-02-28 10:51:11 1291

原创 ubuntu下安装软件出现You might want to run 'apt-get -f install' to correct these解决

hadoop@hadoop-01:/etc/apt$ sudo apt-get install unzip出现以下错误Reading package lists... DoneBuilding dependency treeReading state information... DoneYou might want to run 'apt-get -f install'

2012-02-21 16:16:05 969

原创 LinkedList前世今生

1、LinkedList元素在内部存储的实现,节点定义即指向前一元素的指针,后一元素的指针,当前元素的值。 private static class Entry {    E element;    Entry next;    Entry previous;    Entry(E element, Entry next, Entry previous) {  

2010-04-14 17:34:00 481

原创 ArrayList前世今生

1、 ArrayList默认的初始化因子大小是10。/**     * Constructs an empty list with an initial capacity of ten.//一般初始化因子为10     */    public ArrayList() {    this(10);// 调用2中的ArrayList(int initialCapacity);

2010-04-14 15:36:00 640

原创 MDX 业务实现

v/:* {behavior:url(#default#VML);}o/:* {behavior:url(#default#VML);}w/:* {behavior:url(#default#VML);}.shape {behavior:url(#default#VML);} Normal 0 false

2010-04-14 15:17:00 818

原创 MDX 基本概念

Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE

2010-04-14 15:16:00 987

原创 MDX 简介

Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE

2010-04-14 15:10:00 1916 1

转载 Java中Array与ArrayList的主要区别

1)精辟阐述:可以将 ArrayList想象成一种“会自动扩增容量的Array”。2)Array([]):最高效;但是其容量固定且无法动态改变;     ArrayList: 容量可动态增长;但牺牲效率;3)建议:基于效率和类型检验,应尽可能使用Array,无法确定数组大小时才使用ArrayList!

2010-04-14 14:58:00 801

转载 JAVA String

 关键字: string     要理解java中String的运作方式,必须明确一点:String是一个非可变类(immutable)。什么是非可变类呢?简单说来,非可变类的实例是不能被修改的,每个实例中包含的信息都必须在该实例创建的时候就提供出来,并且在对象的整个生存周期内固定不变。java为什么要把String设计为非可变类呢?你可以问问 james Gosling

2009-11-18 15:04:00 486

webwork+spring+ibatis+velocity实例

最近学习项目需要,学习了webwork,spring,ibatis,velocity.并做了一个DEMO.

2009-04-29

Webwork2 开发指南

最近一个项目用到webwork,感觉这本电子书是一款很不错的webwork2开发指南

2009-04-23

iBATIS-SqlMaps-2_cn.pdf

使用SQL Map,能够大大减少访问关系数据库的代码。SQL Map使用简单的XML配置文件将Java Bean映射成SQL语句,对比其他的数据库持续层和ORM框架(如JDO的实现,Hibernate等),SQL Map最大的优点在于它简单易学。要使用SQL Map,只要熟悉Java Bean,XML和SQL,就能使您充分发挥SQL语句的能力。

2009-04-23

搜索引擎技术原理 主要介绍爬虫技术,索引技术,分词技术。

搜索引擎技术原理,主要介绍爬虫技术,索引技术,分词技术。

2009-03-09

设计模式(java)

这本用java语言来描述设计模式,简单易懂!!

2009-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除