人民日报
1998
年中文标注语料库及读取代码
代码作者:肖波
语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司
PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考,代码中用到了一些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另一篇文章《
KTDictSeg 一种简单快速准确的中文分词方法 》中下载。
调用示例
调用示例
using
System;
using System.Collections;
using System.Collections.Generic;
using System.Text;
using KTDictSeg;
using General;
namespace MachineLeaning
{
class T_Word
{
public String Word; // 单词
public int POS; // 词性
public long Freq; // 词频
} ;
/**/ /// <summary>
/// 1998年人民日报标注预料库的提取
/// </summary>
class People1998
{
Private Members #region Private Members
static Hashtable m_WordTbl = new Hashtable(); // 单词表
/**/ /// <summary>
/// 将字符串类型的词性转换为位域型的词性变量
/// </summary>
/// <param name="strPOS"> 字符串类型的词性标注 </param>
/// <returns> 位域型词性标注 </returns>
static private T_POS GetPosFromString(String strPOS)
{
strPOS = strPOS.Trim().ToLower();
switch (strPOS)
{
case " ag " :
case " ad " :
case " an " :
case " a " : // 形容词 形语素
return T_POS.POS_D_A;
case " bg " :
case " b " : // 区别词 区别语素
return T_POS.POS_D_B;
case " c " : // 连词 连语素
return T_POS.POS_D_C;
case " dg " :
case " d " : // 副词 副语素
using System.Collections;
using System.Collections.Generic;
using System.Text;
using KTDictSeg;
using General;
namespace MachineLeaning
{
class T_Word
{
public String Word; // 单词
public int POS; // 词性
public long Freq; // 词频
} ;
/**/ /// <summary>
/// 1998年人民日报标注预料库的提取
/// </summary>
class People1998
{
Private Members #region Private Members
static Hashtable m_WordTbl = new Hashtable(); // 单词表
/**/ /// <summary>
/// 将字符串类型的词性转换为位域型的词性变量
/// </summary>
/// <param name="strPOS"> 字符串类型的词性标注 </param>
/// <returns> 位域型词性标注 </returns>
static private T_POS GetPosFromString(String strPOS)
{
strPOS = strPOS.Trim().ToLower();
switch (strPOS)
{
case " ag " :
case " ad " :
case " an " :
case " a " : // 形容词 形语素
return T_POS.POS_D_A;
case " bg " :
case " b " : // 区别词 区别语素
return T_POS.POS_D_B;
case " c " : // 连词 连语素
return T_POS.POS_D_C;
case " dg " :
case " d " : // 副词 副语素