自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

烂笔头

。。。

  • 博客(16)
  • 资源 (4)
  • 收藏
  • 关注

转载 词性标注(POS tagging)

词性标注也叫词类标注,POS tagging是part-of-speech tagging的缩写。维基百科对POS Tagging的定义:In corpus linguistics, part-of-speech tagging (POS tagging or POST), also calledgrammatical  tagging or word-category disambi

2014-03-31 15:48:24 4982

原创 2015年实习生招聘笔试题

1、2的100次方除以7的余数——22.如果生出来的第一个是女孩,就不再生了,如果是男孩就继续生,直到生到第一个女孩为止,平均每个家庭几个女孩?——1个3有ABCD四人过桥,时间为1,2,5,10,只有一个手电筒,同时只能过两人,怎么过最快,需时多少?——首先,A和B同时过,需要2分钟。再A返回,需要1分钟,再D与C过桥,需要10分钟,再B返回,需要2分钟,再AB过去2分钟。2+1+1

2014-03-29 21:15:10 710

转载 阿里巴巴算法、数据工程师笔试题选解

1、有三个结点的,可以构成多少个种叉树?  2、一副牌52张(去掉大小王),从中抽取两张牌,一红一黑的概率是多少?  编程题:  3、设计一个最优算法来查找一n个元素数组中的最大值和最小值。已知一种需要比较2n次的方法,请给一个更优的算法。情特别注意优化时间复杂度的常数。  4、已知三个升序整数数组a[l], b[m]和c[n]。请在三个数组中各找一个元素,是的组成的三元组距离最小

2014-03-29 16:14:05 667

转载 语言模型训练工具SRILM

Srilm的全称是Stanford Research Institute Language Modeling Toolkit  。他被用来构建和应用统计语言模型,主要用于语音识别,统计标注和切分,以及机器翻译等工作。    一、windows下编译    ubuntu编译,可以再52nlp中去找。VC编译,可以再下面链接找,http://www.keithv.com/softw

2014-03-27 21:17:12 2655

原创 安装配置Python

我选用的是Python2.7.3,运行exe,一路next.。over!安装Eclipse的Python插件pyDev,注意pyDev的版本要与安装好的Python版本一致,否则在windows-preference中找不到插件。。。。今天就被这个坑了!

2014-03-26 19:38:23 587

转载 java.lang.OutOfMemoryError: Java heap space

eclipse 有启动参数里设置jvm大小,因为eclipse运行时自己也需要jvm,所以eclipse.ini里设置的jvm大小不是具体某个程序运行时所用jvm的大小,这和具体程序运行的jvm大小无关。     那么怎么才能设置某个程序的jvm大小呢(当然控制台运行的话不会存在这个问题,如:java -Xms256m -Xmx1024m classname,这样就可以把当前程序的jvm大

2014-03-24 22:06:57 481

转载 统计语言模型学习笔记

语言模型(Language Model)是描述自然语言内在规律的数学模型。构造语言模型是计算语言学的核心。在实践中,语言模型广泛地用于语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域。  语言模型可分为传统的文法型语言模型和基于统计的语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。为满足这一

2014-03-24 17:05:47 2466

转载 N-gram模型

N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串

2014-03-24 16:00:45 646

转载 FilenameFilter总结

一、FilenameFilter介绍java.io.FilenameFilter是文件名过滤器,用来过滤不符合规格的文件名,并返回合格的文件;一般地:(1)String[] fs = f.list();(2)File[] fs = f.listFiles();这两个方法返回f下的所有文件或目录;FilenameFilter用来把符合要求的文件或目录返回;因此可以

2014-03-17 20:58:57 548

转载 Collections的sort方法 排序

通过Collection的sort方法对List进行排序,有两种方法实现:1. List中的对象应继承Comparable接口,并实现其compareTo方法   //需要比较的对象类PersonH[java] view plaincopyprint?public class PersonH implements Comparable  {

2014-03-17 14:23:12 956

转载 由system.currentTimeMillis() 获得当前的时间

System类代表系统,系统级的很多属性和控制方法都放置在该类的内部。该类位于java.lang包。currentTimeMillis方法public static long currentTimeMillis()该方法的作用是返回当前的计算机时间,时间的表达格式为当前计算机时间和GMT时间(格林威治时间)1970年1月1号0时0分0秒所差的毫秒数。可以直接把这个方

2014-03-17 12:45:23 4783

转载 Java中equals和==的区别

java中的数据类型,可分为两类:1.基本数据类型,也称原始数据类型。byte,short,char,int,long,float,double,boolean 他们之间的比较,应用双等号(==),比较的是他们的值。 2.复合数据类型(类) 当他们用(==)进行比较的时候,比较的是他们在内存中的存放地址,所以,除非是同一个new出来的对象,他们的比较后的结果为true,否则比较

2014-03-16 22:01:01 468

转载 TF-IDF模型的概率解释

转载自cool shell,原文链接:http://coolshell.cn/articles/8422.html#jtss-tsina  信息检索概述信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问题抽象为:在文档集合D上,对于由关键词w[1] … w[k]组成的查询串q,返回一个按查询q和文档d匹配

2014-03-12 23:21:45 876

转载 文本分类入门特征选择算法之开方检验

前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣

2014-03-12 21:06:30 806

转载 文本分类入门(番外篇)特征选择与特征权重计算的区别

在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。文本分类本质上也是一个模式识别

2014-03-12 21:05:09 546

转载 exponential family

原文地址:http://blog.csdn.net/richard2357/article/details/16969335在机器学习中,几乎到处都可以见到exponential family的影子。从伯努利分布,高斯分布,logistic回归,最大熵,都与exponential family息息相关。找了很久的资料,后来发现来自【1】中的讲解最好最清楚。本文是对其的摘录和理解。e

2014-03-11 14:55:08 870

hibernate-annotations-3.4.0.GA

hibernate-annotations-3.4.0.GA

2011-11-24

hibernate-distribution-3.3.2.GA(源码+文档)

hibernate-distribution-3.3.2.GA(源码+文档)

2011-11-22

java file类操作实例

java file类java file类java file类操作实例

2011-07-02

java字节流和字符流

java字节流和字符流java字节流和字符流java字节流和字符流

2011-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除