关闭

Hive metastore三种存储方式

测试环境下Hive总出问题,metastore的配置有问题。抽了点时间,把Hive的meta数据几种存储方式都配置了下。Hive的meta 数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore 。 一、使用derby数据库存储元数据。 这种方式是最简单的存储方式,只需...
阅读(486) 评论(0)

NLP 学习笔记(Log-linear Models)

==============================================================           == all is based on the open course nlp on coursera.org week 7,week 8 lecture  ==                =========================...
阅读(702) 评论(0)

机器翻译中的参数调整---MERT方法

机器翻译的大牛Och在2003提出的方法,用于统计机器翻译中对数线性模型参数的调整,这几天读了这篇论文,也算是有了点了解。写篇文章,要不然就忘了,哈哈。 Och在文章中提出在之前的参数调整方法中,参数的确定和最终的翻译质量并没有什么紧密的联系,比如在统计机器翻译的对数线性模型中feature的权重需要调整,使用的 准则就是如下的公式:                     ...
阅读(898) 评论(0)

判别式模型与生成式模型

判别式模型 该模型主要对p(y|x)建模,通过x来预测y。在建模的过程中不需要关注联合概率分布。只关心如何优化p(y|x)使得数据可分。通常,判别式模型在分类任务中的表现要好于生成式模型。但判别模型建模过程中通常为有监督的,而且难以被扩展成无监督的。   常见的判别式模型有:     Logistic regression     Linear discriminant a...
阅读(435) 评论(0)

估计概率构造短语翻译表

经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。         在上一节,我们得到了短语对集合,如下图所示:         在这里,我们估计概率主要进行四个分数的计算,即双向短语翻译概率(正向:“源语言->目标语言”方向;反向:“目标语言->源语言”方向 )、双向词汇化权重。首...
阅读(542) 评论(0)

Beam Search Algorithm (Draft by Andrew Jungwirth)

Objectives To show how the Beam Search Algorithm uses a heuristic function and a given beam width in an attempt to simulate the Breadth-First Search in a memory-efficient way. To emphasize the i...
阅读(749) 评论(0)

自然语言处理(NLP)网上资源整理

http://blog.csdn.net/xuh5156/article/details/7437475 最近把一些在网上见到的自然语言处理的资源整理了一下,包括论文列表、软件资源和一些实验室主页、个人主页等,希望能对NLP研究者有所帮助,由于个人视野有限,目前只整理了这些,以后会持续更新。在此也感谢这些资源的提供者和维护者。 转载请标明出处(http://blog.csdn....
阅读(930) 评论(0)

Android入门笔记之Fragment

Android入门笔记之Fragment 简介         Fragments 设计理念       在设计应用时特别是Android 应用,有众多的分辨率要去适应,而fragments 可以让你在屏幕不同的屏幕上动态管理UI。例如:通讯应用程序(QQ),用户列表可以在左边,消息窗口在右边的设计。而在手机屏幕用户列表填充屏幕当点击某一用户时,则弹出对话窗口的设计,如下图:  Fra...
阅读(855) 评论(0)

ARPA的n-gram语言模型格式

先看一下语言模型的格式 [html] view plaincopyprint? \data\   ngram 1=64000   ngram 2=522530   ngram 3=173445      \1-grams:   -5.24036        'cause  -0.2084827   -4.675221       ...
阅读(843) 评论(0)

【总结】Python 2.x中常见字符编码和解码方面的错误及其解决办法

Python 2.x中的字符编码,设计的的确不好,导致初学者,甚至是即使用Python很长时间的人,都会经常遇到字符编解码方面的错误。 下面就把一些常见情,尽量的都整理出来,并给出相应的解决办法。 看此文之前 Python中字符编码所涉及的背后逻辑(从你输入字符,到终端显示字符的背后过程) 在去了解Python编码解码之前,还有个更加重要,但是很多时候却被其他解释相关知...
阅读(1136) 评论(0)

句子对齐工具

1,CTK: Champollion Tool Kit 基于词汇的,结合句长的。有英语-阿拉伯语、英语-汉语的语言对。 2,Para 用prolog这种语言写的,具体不清楚。 3,Bilingual Sentence Aligner 用perl写的,nlp中各种脚本语言啊。支持单文件对齐,也支持目录下的对齐。 4,vanilla aligner c写的,据...
阅读(975) 评论(0)

linux下解压命令大全

.tar  解包:tar xvf FileName.tar 打包:tar cvf FileName.tar DirName (注:tar是打包,不是压缩!) ——————————————— .gz 解压1:gunzip FileName.gz 解压2:gzip -d FileName.gz 压缩:gzip FileName .tar.gz 和 .tgz 解压:tar zxv...
阅读(348) 评论(0)

推荐系统相关资源汇总

为了更好的学习推荐系统,本博文将个人知道的关于推荐系统的相关资源整理汇总,拿出来与大家分享。本博文每月更新一次,长期维护,如果你有好的关于推荐系统的资源,请email我,放到这里与大家分享。 主页 GroupLens: http://www.grouplens.org GroupLens项目官方主页John Riedl: http://www-users.cs.umn.edu/~rie...
阅读(638) 评论(0)

Android入门笔记之人脸识别初学

简介        Android4.0自带的人脸识别技术只能识别出人脸在画面中的位置,中心点,眼间距,角度等基本特性,提供给上层应用使用。 Google 于2006年8月收购Neven Vision 公司(该公司拥有 10 多项应用于移动设备领域的图像识别的专利),以此获得了图像识别的技术,并很快应用到免费的 Picasa 相册管理程序中,提供基于人脸识别的相片管理功能,另外还推出了一个新...
阅读(735) 评论(0)

Android入门笔记之源码解析四

Android入门笔记之源码解析四 简介 仿京东商城客户端源码分析。 关键步骤 主要有6个Activity,MainActivity为主Activity。 主要是Tab布局和布局文件的编写,具体功能都没有实现。 其中ExitManager继承了Application,里面有个activity的list,采用单例模式,当application结束时,依次结束所有activity。 知识...
阅读(440) 评论(0)
57条 共4页1 2 3 4 下一页 尾页
    个人资料
    • 访问:45250次
    • 积分:810
    • 等级:
    • 排名:千里之外
    • 原创:29篇
    • 转载:28篇
    • 译文:0篇
    • 评论:3条
    文章分类
    最新评论