代码调试全指南-自然语言处理-基于预训练模型的方法,车万翔

本文档介绍了从FMM分词到预训练语言模型(如GPT和BERT)的自然语言处理实践。内容涵盖分词算法、维基百科语料库处理、情感分类、CBOW和Skipgram模型、动态词向量ELMo以及GPU资源限制下的预训练模型使用。涉及的工具包括pytorch、python和AllenNLP。
摘要由CSDN通过智能技术生成

introduction

从github中下载代码包或从我的某度网盘链接中下载我处理好的代码包plm-nlp-code-main,其中有chp2~chp8的示例代码。
注意右下角的解释器,选择自己下载好pytorch的环境,笔者这里是名为python3.7的环境(可以起任意名)。
在这里插入图片描述

chp2: fmm分词&svg

Page23:最简单的分词算法:正向最大匹配(Forward Maximum Matching, FMM)
i.e. 从前向后扫描桔子中的字符串,尽量找到词典中较长的单词作为分词的结果。
fmm_word_seg.py
在这里插入图片描述
Page16:svd.py奇异值分解,这里正确显示需要添加字体,详见chp2代码调试
在这里插入图片描述
在这里插入图片描述

chp3: 维基百科语料库处理

下载的文本text文件夹、wikiextractor工具、语料库压缩包均放在chp3同级的chp3-src目录中。注意,如果要用pycharm打开项目,那么应当单独打开chp3,否则如果打开项目中包含了text语料库,则会消耗大量时间进行编制索引 indexing (笔者进行了一个下午都没搞完AA文件夹,所以大概是不可行)
page63:

  1. convert_t2s.py
    先根据chp3代码调试,对convert_t2s.py进行修改,对windows适配。
    在plm-nlp-code-main文件夹中打开Terminal
    在命令行工具中
python .\chp3\convert_t2s.py .\chp3-src\text\AA\wiki_00 > output_file

原先\text

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值