代码调试全指南-自然语言处理-基于预训练模型的方法，车万翔

半杯知识

已于 2022-02-23 00:15:13 修改

阅读量1.7k

点赞数 2

文章标签：自然语言处理 pytorch python

于 2022-02-21 07:43:47 首次发布

本文链接：https://blog.csdn.net/weixin_43095939/article/details/123036779

版权

本文档介绍了从FMM分词到预训练语言模型（如GPT和BERT）的自然语言处理实践。内容涵盖分词算法、维基百科语料库处理、情感分类、CBOW和Skipgram模型、动态词向量ELMo以及GPU资源限制下的预训练模型使用。涉及的工具包括pytorch、python和AllenNLP。

摘要由CSDN通过智能技术生成

文章目录

introduction
chp2: fmm分词&svg
chp3: 维基百科语料库处理
chp4: 情感分类
chp5: cbow, skipgram...
chp6: 动态词向量，ELMo
chp7: 预训练语言模型（Pre-trained Language Model, PLM）GPT & BERT

introduction

从github中下载代码包或从我的某度网盘链接中下载我处理好的代码包plm-nlp-code-main，其中有chp2~chp8的示例代码。
注意右下角的解释器，选择自己下载好pytorch的环境，笔者这里是名为python3.7的环境（可以起任意名）。
在这里插入图片描述

chp2: fmm分词&svg

Page23：最简单的分词算法：正向最大匹配（Forward Maximum Matching, FMM）
i.e. 从前向后扫描桔子中的字符串，尽量找到词典中较长的单词作为分词的结果。
fmm_word_seg.py
在这里插入图片描述
Page16：svd.py奇异值分解，这里正确显示需要添加字体，详见chp2代码调试

chp3: 维基百科语料库处理

下载的文本text文件夹、wikiextractor工具、语料库压缩包均放在chp3同级的chp3-src目录中。注意，如果要用pycharm打开项目，那么应当单独打开chp3，否则如果打开项目中包含了text语料库，则会消耗大量时间进行编制索引 indexing (笔者进行了一个下午都没搞完AA文件夹，所以大概是不可行)
page63：

convert_t2s.py
先根据chp3代码调试，对convert_t2s.py进行修改，对windows适配。
在plm-nlp-code-main文件夹中打开Terminal
在命令行工具中

python .\chp3\convert_t2s.py .\chp3-src\text\AA\wiki_00 > output_file

原先\text

最低0.47元/天解锁文章

半杯知识

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
代码调试全指南-自然语言处理-基于预训练模型的方法，车万翔

代码调试
复制链接

扫一扫