人民日报1998年中文标注语料库及读取代码

eaglet

于 2007-09-10 13:27:00 发布

阅读量1.4w

点赞数 1

分类专栏：搜索引擎中文分词文章标签： list null string class 语言 system

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eaglet/article/details/1778995

版权

人民日报 1998 年中文标注语料库及读取代码

代码作者：肖波

语料库：北京大学计算语言学研究所和富士通研究开发中心有限公司

PFR人民日报标注语料库(版本1.0，下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下，以1998年人民日报语料为对象，由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注，其被作为原始数据应用于大量的研究和论文中。

由于该语料库是以文本形式提供的，本文给出了读取该语料库的C#代码，供网友参考，代码中用到了一些公共的类，如CRegx,CFile等位于KTDictSeg组件中，可以到我的另一篇文章《 KTDictSeg 一种简单快速准确的中文分词方法 》中下载。

调用示例

using System;

using System.Collections;

using System.Collections.Generic;

using System.Text;

using KTDictSeg;

using General;

namespace MachineLeaning

{

class T_Word

{

public String Word; // 单词

public int POS; // 词性

public long Freq; // 词频

} ;

/// <summary>

/// 1998年人民日报标注预料库的提取

/// </summary>

class People1998

{

Private Members

最低0.47元/天解锁文章

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
3
评论
人民日报1998年中文标注语料库及读取代码

人民日报1998年中文标注语料库及读取代码代码作者：肖波语料库：北京大学计算语言学研究所和富士通研究开发中心有限公司PFR人民日报标注语料库(版本1.0，下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下，以1998年人民日报语料为对象，由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。