Lenskit

逆水行舟 不进则退

(8)hadoop学习——内部表和外部表

hive默认建表方式就是建立内部表。 建外部表语句: create external table table_exter( id int, name string, age int, tel string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t...

2017-05-16 20:18:51

阅读数 1393

评论数 0

hadoop上的工作流调度——oozie

Hadoop上的工作流调度 Oozie是一个管理Apache Hadoop任务的工作流调度系统。 Oozie工作流任务是有向无环图。 Oozie协调任务是由时间(频率)和数据是否可获得来触发的oozie工作流。 Oozie是一个可扩展的、可靠的和可延伸的系统。 oozie主要由以下几部分组成:...

2017-05-15 19:43:02

阅读数 796

评论数 0

相对熵

前面已经介绍了信息熵和互信息,它们是信息论的基础,而信息论则在nlp中扮演着指导性的角色。     这篇介绍一下另一重要概念—相对熵。相对熵,有些文献里也叫“交叉熵”,它也用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相似性,定义:KL(f(x)||g(x))=∑f(x)...

2017-05-14 20:59:39

阅读数 1716

评论数 0

互信息

有关系的信息才能消除不确定性,这个有关系有点模糊,最好能度量“相关性”才好。香农在信息论中提出了一个“互信息”的概念作为两个随机事件“相关性”的度量。假定有两个随机事件X和Y,它们的互信息定义如下:     I(X;Y)=∑P(x,y)log(P(x,y)/P(x)P(y))     互信...

2017-05-14 20:56:54

阅读数 1185

评论数 2

搜索和信息的作用——条件熵

网页搜索本质上就是从几十亿个网页中,找到和用户输入的搜索词最相关的几个网页。几十亿种可能性,当然是很大的不确定性U。因此网页搜索本质也是利用信息消除不确定性的过程。如果提供的信息不够多,比如搜索词是常用的关键词,诸如“中国”、“经济”之类的,那么会有好多相关的结果,用户可能还是无从选择。    ...

2017-05-14 20:55:09

阅读数 717

评论数 0

1比特和第二次世界大战?

上一篇中的250万比特是个平均数,同样长度的书,所含信息量可以相差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的:同样意思的中文书比英文书薄。     自古以来,信息和消除不确定性是相联系的。英语中信息和情报是同一个词(I...

2017-05-14 20:51:12

阅读数 434

评论数 0

信息的度量——信息熵

我们常说信息有用,那么它的作用如何客观、定量地体现出来呢?信息用途的背后是否有理论基础呢?这个问题一直没有很好的回答,直到1948年,香农在他的论文“通信的数学原理”中提到了“信息熵”的概念,才解决了信息的度量问题,并量化出信息的作用。     一条信息的信息量与其不确定性有着直接的关系,比如我...

2017-05-14 20:49:47

阅读数 2382

评论数 0

谈谈分词(下)

分词的一致性和颗粒度当统计语言模型被广泛应用后,简单依靠与人工分词的结果比较来衡量分词器的准确性就很难,甚至毫无意义。不能讲一个准确率97%的分词器一定比95%的好,因为这要看它们选用的所谓正确的人工分词的数据是如何得来的。我们只能讲某个分词器与另一个相比,与人工分词结果的吻合度稍微高一点而已。所...

2017-05-14 20:46:05

阅读数 474

评论数 0

谈谈分词(上)

前面谈到利用统计语言模型进行nlp,而这些语言模型是建立在词的基础上的,因为词是表达语义的最小单位。分词的输入是一串汉字,比如:“我喜欢善良的女生。”,而分词的输出则是用分界符,比如用斜线分割的一串词:我/喜欢/善良/的/女生。最容易想到的分词方法,也是最简单的方法,就是查字典。这种方法最早是北航...

2017-05-14 20:44:12

阅读数 586

评论数 0

(7)hadoop学习——hive的复杂数据类型

Hive常用的复杂数据类型有以下几种。 包括ARRAY,MAP,STRUCT,UNION,这些复杂类型是由基础类型组成的。   ARRAY:ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits,它是由['apple','orange...

2017-05-09 19:35:37

阅读数 462

评论数 0

(6)hadoop学习——hive的文件存储和基本数据类型

上一篇介绍了hive的架构,以及hive语句执行的过程。 这篇详细介绍hive的文件存储和使用方法。 Hive是hdfs上的数据仓库,而hdfs上存放的都是文件,所以hive中的表可以理解为对hdfs上文件的映射。 看完下面的介绍,相信你能很清楚的理解:“hive中的表就是hdfs的文件”这句话。...

2017-05-08 19:21:54

阅读数 1156

评论数 0

统计语言模型(下)

接上篇。     P(wi|wi-1)就是这两个数的比值,再考虑到上面的两个概率有相同的分母(语料库大小),可以约掉,所以P(wi|wi-1)(wi-1,wi)/(wi-1)。     现在你是否感受到数学的美妙?它把一些复杂的问题变得如此简单。似乎难以相信,这么简单的数学模型能解决复杂的语音识别...

2017-05-05 23:01:49

阅读数 414

评论数 0

统计语言模型(上)

nl从产生,逐渐演变成一种上下文相关的信息表达和传递的方式,因此让计算机处理nl,一个基本的问题就是为这种上下文相关的特性建立数学模型,这个模型就是在nlp中常说的统计语言模型,它是今天所有nlp的基础,并且广泛应用于机器翻译、语言识别、印刷体或手写体识别、汉字输入等。     其实一个句子,可以...

2017-05-05 23:00:16

阅读数 365

评论数 0

规则和统计(下)

1988年,IBM的彼得·布朗等人提出了基于统计的机器翻译方法,框架是对的,但是效果很差,因为当时没有足够的统计数据,也没有足够强的模型来解决不同语言语序颠倒的问题。在很长一段时间里,传统方法支持者攻击对方的武器就是,基于统计的方法只能处理浅层的nlp问题,无法进行深层次的研究。     从20...

2017-05-05 22:58:08

阅读数 304

评论数 0

规则和统计(上)

在20世纪60年代,科学家对nlp的普遍认识是分析语义和获取语义。 这是因为受到了传统语言研究的影响—学习语言要学习语法规则、词性和构词。这些规则是人类学习语言的好工具,而这些规则又很容易用计算机描述,所以坚定了大家对基于规则的nlp的信心。看一个例子:徐志摩喜欢林徽因。这个句子可以分为主语、动词...

2017-05-05 22:56:47

阅读数 517

评论数 0

造飞机和自然语言处理?

自然语言处理60多年的发展过程,基本上可以分成两个阶段。早期的20多年,是科学家们走弯路的阶段。全世界的科学家对计算机处理自然语言的认识都被自己局限在人类学习语言的方式上,即用电脑模拟人脑,这20多年的成果几乎为零。直到20世纪70年代,一些自然语言处理的先驱重新认识这个问题,找到了基于数学模型和...

2017-05-05 22:54:27

阅读数 394

评论数 0

我们的祖先与通信模型?

我们的祖先很早就开始使用和传播信息了,发出怪叫声来告知同伴各种情况。这里面信息的产生、传播、接收和反馈,与今天最先进的通信在原理上没有任何区别——说话人=信息源,怪叫声=编码,听到的声音=解码,同伴=接收者。     随着信息的变多,慢慢发展成了语言,为了记录,开始有了文字,在纸张发明之前,记录...

2017-05-05 22:53:05

阅读数 259

评论数 0

(5)hadoop学习——hive是什么?

Hive——hdfs上的数据仓库 hive的架构主要分为以下几部分: Driver组件:它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架。 Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive...

2017-05-04 18:51:00

阅读数 418

评论数 0

mongodb基本操作

组里在搞mongo,今天花一个多小时稍微看一看。 以常用的关系型数据和mongodb做比较。 1、连接mongomongo --port 10001 2、查看数据库 mongo: show dbs 3、使用数据库 mongo: use dbname 4、查看集合(等同于表) mongo...

2017-05-03 19:48:57

阅读数 424

评论数 0

python——用lambda函数替换for循环

场景如下: 现在有一个dataframe,其中一列为score,值从0-100, df: score 98 88 37 68 86 33 现在需要增加一列level,给这些分数分类,90分以上为A,60-90为B,60以下为C。 大家首先想到的方法肯定是写一个方法,循环处理每一行。 默认dataf...

2017-05-02 19:28:24

阅读数 18207

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭