自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

分享生活,给您精彩!!

朋友做的新网站:完美婚礼(www.wmhl.cn)上线了,Javaeyer们咱们不能只知道埋头code呀,还是要多关注一下自己的婚姻大事哈,喜欢的朋友可以去看看哦。网站的介绍:完美婚礼网致力于成为国内最大、最权威的婚嫁网站,在这里你不但可以了解到最新、最时尚的婚嫁资讯,还可以在线选购定做婚纱,在线预约影楼,在线预约婚庆公司,评价他们的服务可以得到现金回馈!免费参与我们组织的丰富多彩的活动还可以赢得...

2010-10-11 16:53:50 126

判断给定中文字符所属字符集的方法

常见的中文字符集有:GB2312字符集、GBK 字符集、BIG5字符集、 GB 18030字符集。其中GB2312字符集、GBK 字符集、BIG5字符集都是采用两个字节表示一个汉字。下面的程序中h表示字符的高字节位、l表示字符的低字节位,十六进制数值表示的是各种字符编码集的边界。  public static boolean isGB2312(byte h, byte l){ ...

2009-06-25 04:05:09 263

中文命名实体识别实现过程中的难点分析

     前几天有网友建议把命名实体识别功能加到Yard中文分词系统中,其实我也一直在做这方面的努力只是目前还存在一些问题,与其加一个bug连连的功能进去好不如不加的好。但是在1.0正式版中命名实体识别功能一定会有的,大家拭目以待吧。      简单介绍一下什么是命名实体识别及其在实现过程中将会遇到的问题。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的...

2009-06-22 17:28:29 1744

Yard中文分词系统V0.2.0版发布附全部源代码

经过这几天加班加点的调试Yard中文分词系统V0.2.0版本终于出来了,这次Yard中文中文系统不但能够对中文进行很好的切分而且能够能对数字和英文进行识别切分了,应JavaEyer们的要求这次将源代码一起发布出来供大家一起学习。下面谈谈中文智能分词技术在自然语言理解中的应用,智能分词技术是实现自然语言理解最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中,如何能够恰...

2009-06-18 18:13:03 162

腾讯算法面试题解答

才在JavaEye论坛看一个帖子求助腾讯一道面试题的解法。题目是这样的:给你10分钟时间,根据上排给出十个数,在其下排填出对应的十个数 要求下排每个数都是先前上排对应那个数在下排十个数中出现的次数。 上排的十个数如下: 【0,1,2,3,4,5,6,7,8,9】  JavaEye论坛里面有人给出了一个java实现的算法。public class Test{ public ...

2009-06-17 12:44:00 155

词语切分与词性标注 - 规范与加工手册

现代汉语语料库词语切分和词性标注规范在现代分词系统被广泛使用,中科院的分词系统中的词性标注也差不多采用这个标记集合。Yard中文分词系统在后面的版本中也将采用这个标记集合。 按代码的字母顺序排列的标记集    代码 名称 帮助记忆的诠释 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 a ...

2009-06-17 02:22:07 782

求两个集合差的几种常见算法

有两个数组:String[] arr01={"Andy","Bill","Cindy","Douglas","Felex","Green"};String[] arr02={"Andy","Bill","Felex","Green","Gates"};求存在于arr01而不存在于arr02的

2009-06-16 15:38:31 152

原创 全排列算法

package com.sitinspring;/** *//** * 全排列算法示例如果用P表示n个元素的排列,而Pi表示不包含元素i的排列,(i)Pi表示在排列Pi前加上前缀i的排列,那么,n个元素的排列可递归定义为: * 如果n=1,则排列P只有一个元素i如果n>1,则排列P由排列(i)Pi构成(i=1、2、.、n-1)。根据定义,容易看出如果已经生成了k-1个元素的排...

2009-06-16 15:23:32 124

Yard中文分词系统V0.1.1版发布啦

这次主要是对Yard中文分词系统里面关于最长词的归并算法做了优化,现在系统能够对“使用户满意的做法,乒乓球拍卖完了”这样的句型进行正确切分了。但是目前一直没有找到合适的字频词频词典,所以最大概率分词算法还没能加入到分词系统中。按计划打算在这周自己对1亿字左右的语料进行切分统计做个字频词频词典出来到时候分享给大家。 就在昨天我认识的一个学中文信息处理的兄弟,由于答辩的时候被一老教授给K了心情很不爽说...

2009-06-15 13:24:35 135

现代汉语常用词表

做中文信息处理少不了要借助相应的工具书籍《现代汉语常用词表》就是一本很有用的工具书先赞一个,《现代汉语常用词表》收录了56008个常用词中,包括单音节词3181个,双音节词40351个,三音节词语6459个,四音节词语5855个,五音节和五音节以上词语162个。内容包括:现代汉语常用词表(草案)附录《现代汉语常用词表(草案)》音序索引《现代汉语常用词表(草案)》研制报告作 ...

2009-06-14 17:43:06 2316

国家语言文字工作委员会3500个常用字

国家语言文字工作委员会3500个常用字,2500常用字覆盖率达97.97%,1000次常用字覆盖率达 1.51%,合计(3500字)覆盖率达99.48%,说明《现代汉语常用字表》是符合实际的。常用字2500一 乙 二 十 丁 厂 七 卜 人 入 八 九 几 儿 了 力 乃 刀 又 三 于 干 亏 士 工 土 才 寸 下 大 丈 与 万 上 小 口 巾 山 千 乞 川 亿 个 勺 久...

2009-06-14 17:36:11 885

关于最大概率分词

今天晚上实验了一下最大概率分词算法感觉分词精度一般,词频词典用的是北语版的也有可能是词典的原因,明天周末打算再好好改一下Yard中文分词系统里面的归并算法。等后面下到现在汉语常用词词频词典再好好调一下最大概率分词程序。争取早一点将最大概率分词加到Yard中文分词系统中。Yard中文分词系统V0.1版下载地址:[url]http://soul-fly.iteye.com/blog/40692...

2009-06-14 03:18:27 238

Yard中文分词系统V0.1版性能分析

Yard中文分词系统V0.1还有很多地方需要完善,它对中文人名、地名、数字、英文等还不能进行切分,在歧义句的划分上也还存在问题。我会在这个月低推出0.2版将实现对数字、英文的切分,同时将利用现有的基于词频的方法加上MP算法实现对歧义句很好的划分。好了还是来谈谈Yard中文分词系统V0.1版的性能吧。在中文分词领域中歧义句的划分比较复杂,常用的方法有FWF算法和MP算法等,在Yard系统中我没有...

2009-06-12 17:43:41 135

Yard中文分词系统

Yard中文分词系统基于改进的正向最大匹配算法和全切分算法,利用双字哈希进行词典组织解决了中文长词切分带来的分词效率低下问题。 本次发布的版本为0.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了歧义划分的问题,但是对人名、地名、组织名、英文、数字等还不能进行很好的切分,在下一个版本中将解决这些问题。中文词典应用了搜狗实验室提供的互联网词库。纯java编写。本软件为开源软件你可以进行任...

2009-06-11 18:57:16 188

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除