人民日报
1998
年中文标注语料库及读取代码
代码作者:肖波
语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司
PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考,代码中用到了一些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另一篇文章《
KTDictSeg 一种简单快速准确的中文分词方法 》中下载。
调用示例
调用示例






























































