<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>呼唤新一代世界级水准的情报学学术领袖！ - 自然语言处理</title><link>http://blog.csdn.net/ministonenap/category/259100.aspx</link><description /><dc:language>zh-CN</dc:language><lastUpdateTime>Tue, 25 Mar 2008 16:55:39 GMT</lastUpdateTime><ttl>60</ttl><item><dc:creator>MinistoneNap </dc:creator><title>语义网导论</title><link>http://blog.csdn.net/ministonenap/archive/2007/05/15/1610530.aspx</link><pubDate>Tue, 15 May 2007 21:05:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2007/05/15/1610530.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1610530.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2007/05/15/1610530.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1610530.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1610530</trackback:ping><description>一篇介绍语义网的简明导论。&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1610530.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>语料库单字字频统计</title><link>http://blog.csdn.net/ministonenap/archive/2006/12/07/1433390.aspx</link><pubDate>Thu, 07 Dec 2006 13:09:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/12/07/1433390.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1433390.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/12/07/1433390.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1433390.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1433390</trackback:ping><description>语料库单字字频统计的基本思路是:利用File对象的String list()或File[] listFiles方法,获取语料库中的所有文件的文件名 或文件数量,然后循环读取统计每一个文件,并将每个文件的统计结果添加到一个存储字频的动态数组中(这个数组的每个元素的下标对应GB2312-80中的一个汉字,数组每个元素的值对应该汉字的字频),统计完毕,输出出现的每个符合要求的汉字及其字频,并计算出现的字型(word type)总数&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1433390.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>单字字频统计</title><link>http://blog.csdn.net/ministonenap/archive/2006/12/06/1432393.aspx</link><pubDate>Wed, 06 Dec 2006 18:28:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/12/06/1432393.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1432393.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/12/06/1432393.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1432393.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1432393</trackback:ping><description>处理这个问题的基本思想是，建立一个动态数组，数组中的每一个元素当作一种结构，其存储的数据是某个汉字出现的频率，同时，还需建立其字频和汉字的关联，这个问题用数组的下标能很容易实现。那么怎样来建立汉字和数组下标的关联呢？由上一篇对于汉字编码的分析可以得出如下的计算公式：
&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1432393.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>国标码(GB2312)的自动生成</title><link>http://blog.csdn.net/ministonenap/archive/2006/12/05/1431004.aspx</link><pubDate>Tue, 05 Dec 2006 15:58:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/12/05/1431004.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1431004.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/12/05/1431004.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1431004.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1431004</trackback:ping><description>     我用java程序实现了由机器自动生成国标码.其基本思想是用循环产生每个字节的ASCII码,然后连接两个字节的字符串,再以文本形式输出到二进制文件中.代码如下:
&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1431004.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>汉字编码</title><link>http://blog.csdn.net/ministonenap/archive/2006/12/04/1429838.aspx</link><pubDate>Mon, 04 Dec 2006 21:17:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/12/04/1429838.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1429838.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/12/04/1429838.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1429838.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1429838</trackback:ping><description>中文字符由两个字节组成,每个字节的ASCII码都大于127(因为每字节的最高为都定义为1).中文字符码实质上是一种区位码,其编码空间是94*94,即有8836个码位,除了有7445个字符之外,还有1391个空位.具体的说,国标码的两个字节的ASCII值都是161-254之间的整数.
&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1429838.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>Ministone</dc:creator><title>统计自然语言处理学习笔记(1)</title><link>http://blog.csdn.net/ministonenap/archive/2006/11/29/1420020.aspx</link><pubDate>Wed, 29 Nov 2006 14:13:00 GMT</pubDate><guid>http://blog.csdn.net/ministonenap/archive/2006/11/29/1420020.aspx</guid><wfw:comment>http://blog.csdn.net/ministonenap/comments/1420020.aspx</wfw:comment><comments>http://blog.csdn.net/ministonenap/archive/2006/11/29/1420020.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/ministonenap/comments/commentRss/1420020.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1420020</trackback:ping><description>因为这些问题同时也是国际上的热点问题，在学习这些内容时不可避免的要遇到一些英语问题。本文将最近所遇到的该领域的专业英语及其含义做一个简单的小结，列举如下。
&lt;img src ="http://blog.csdn.net/ministonenap/aggbug/1420020.aspx" width = "1" height = "1" /&gt;</description></item></channel></rss>