NLP
中科小白
这个作者很懒,什么都没留下…
展开
-
如何将中文文档语料训练成词向量
准备需要训练的原始语料在这里,我们采用docx文档作为原始语料:如图所示,这些文档是我用到的语料。将语料转换为txt文件格式代码如下:import osimport docxdef docx_to_txt(): # 打开文件 files = os.listdir('./corpus') with open('corpus.txt', 'w+', encoding='utf-8') as f: for file_name in file原创 2020-12-22 21:33:47 · 2374 阅读 · 7 评论 -
bert模型代码运行文档
#1. 了解Bert是什么,找到原始文章和源码 BERT,全称是Bidirectional Encoder Representations from Transformers,是一种预训练语言表示的新方法。 Bert是2018年由Google AI团队开源的NLP模型,引起业内巨大反响,因为其在多项NLP任务上均超过当前的state-of-the-art。 Bert的原始论文为《BE...原创 2019-08-27 19:14:32 · 1141 阅读 · 0 评论 -
一些github项目分享
NLP刘知远的NLP研究入门之道:https://github.com/zibuyu/research_tao自然语言处理进展跟踪:https://github.com/sebastianruder/NLP-progress影评情感分析(LSTM+attention):https://github.com/bingshen/kaggle_emotion_classify信息抽取:...原创 2019-09-30 17:22:49 · 272 阅读 · 0 评论