NLP
文章平均质量分 79
rothschildlhl
举头低北斗,挥剑破苍穹。
展开
-
基于Pytorch的Transformer翻译模型前期数据处理方法
Google于2017年6月在arxiv上发布了一篇非常经典的文章:Attention is all you need,提出了解决sequence to sequence问题的transformer模型,该文章使用全Attention的结构代替了LSTM,抛弃了之前传统的encoder-decoder模型必须结合CNN或者RNN的固有模式。在减少计算量和提高并行效率的同时还取得了更好的结果,也被评为2017年 NLP 领域的年度最佳论文。原创 2022-05-11 21:42:26 · 1487 阅读 · 0 评论 -
Resource punkt not found. Please use the NLTK Downloader to obtain the resource错误解决方案
首先前提是已经安装了python的nltk库(见下图),目的是调用nltk库的word_tokenize方法实现英文分词。原创 2022-05-09 21:46:12 · 13681 阅读 · 4 评论 -
基于Windows安装langconv实现繁体和简体字的转换
在学习自然语言处理的时候,大家可能已经发现有些中文数据集是繁体字,那么当我们的任务需求是输出简体字时就需要对原始中文数据集进行字体转换,达到顺利输出的目的。原创 2022-05-09 20:09:52 · 2668 阅读 · 0 评论 -
word2vec模型原理及实现词向量训练案例
word2vec模型进行词向量训练方法一、打开语料库官网搜狗实验室的搜狗新闻语料库官方链接:点击打开官方链接二、下载语料库数据,首先下拉找到迷你版(样例数据, 110KB),然后点击第一个红色箭头指向的红色框内容(tar.gz格式),自己选择好保存文件的途径之后点击第二个红色箭头指向的红色框内容(保存)。注意:下载来的文件名是“news_sohusite_xml.smarty.tar.gz”。三、首先按键盘“windows键+r”打开资源管理器 ,在打开栏输入“cmd”然后点击“确定”。然后通原创 2021-03-25 15:24:11 · 5836 阅读 · 4 评论