人民日报1998年中文标注语料库及读取代码

人民日报 1998 年中文标注语料库及读取代码
代码作者:肖波
语料库:北京大学计算语言学研究所和富士通研究开发中心有限公司
PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
由于该语料库是以文本形式提供的,本文给出了读取该语料库的C#代码,供网友参考,代码中用到了一些公共的类,如CRegx,CFile等位于KTDictSeg组件中,可以到我的另一篇文章《 KTDictSeg 一种简单快速准确的中文分词方法 》中下载。



调用示例

 

using  System;
using  System.Collections;
using  System.Collections.Generic;
using  System.Text;
using  KTDictSeg;
using  General;

namespace  MachineLeaning
{
    
class  T_Word
    
{
        
public  String Word;  // 单词
         public  int  POS;   // 词性
         public  long  Freq;    // 词频  
    }
;

    
///  <summary>
    
///  1998年人民日报标注预料库的提取
    
///  </summary>

     class  People1998
    
{
        
Private Members
  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
BERT模型对语料库预处理的代码主要包括以下几个步骤: 1. 将原始语料库转化为BERT模型能够处理的格式 2. 对输入文本进行分词 3. 添加特殊标记,如[CLS]、[SEP]等 4. 对句子进行padding,使其长度相同 5. 构建输入的特征向量 下面是一个简单的BERT模型对语料库预处理的代码示例: ```python import torch from transformers import BertTokenizer from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler # 加载BERT分词器 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') # 加载数据集 sentences = ["This is the first sentence.", "This is the second sentence."] labels = [0, 1] # 对文本进行分词和添加特殊标记 input_ids = [] for sentence in sentences: encoded_sent = tokenizer.encode(sentence, add_special_tokens=True) input_ids.append(encoded_sent) # 对句子进行padding MAX_LEN = 64 input_ids = torch.tensor([i + [0]*(MAX_LEN-len(i)) for i in input_ids]) # 构建attention masks attention_masks = [] for sent in input_ids: att_mask = [int(token_id > 0) for token_id in sent] attention_masks.append(att_mask) # 构建数据集 dataset = TensorDataset(input_ids, attention_masks, torch.tensor(labels)) # 构建数据加载器 batch_size = 32 dataloader = DataLoader(dataset, sampler=RandomSampler(dataset), batch_size=batch_size) ``` 以上代码中,我们首先加载了BERT分词器,然后对输入文本进行分词和特殊标记的添加,接着对句子进行padding,最后构建了输入特征向量和数据加载器。这样,我们就可以将预处理后的数据输入到BERT模型中进行训练或推理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值