NLP
苦行猿
一个认真搬砖的计科研究生
展开
-
sklearn使用StratifiedShuffleSplit完成train:test:dev = 6:2:2的数据集分割
import numpy as np from sklearn.model_selection import StratifiedShuffleSplit X = [] y = [] num = 0 with open('./bankV4.txt', 'r', encoding='utf8') as v4: old_lines = v4.readlines() print(len(old_lines)) for i in range(len(old_lines)): .原创 2021-11-27 17:38:13 · 1105 阅读 · 0 评论 -
word embedding 补充(表面上的秒懂版)
判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列样本(x,y),这里 x 是词语,y 是它们的词性,我们要构建 f(x)->y 的映射,但这里的数学模型 f(比如神经网络、SVM)只接受数值型输入,而 NLP 里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding)。例如:Word2vec,就是词嵌入( word embedding) 的一种 ...原创 2021-09-03 09:23:12 · 84 阅读 · 0 评论 -
论文学习笔记(一)——NEURALMACHINETRANSLATIONBYJOINTLYLEARNING TOALIGN ANDTRANSLATE
黑色字体是原文翻译,红色字体是我所做的总结与解释 摘要: 神经机器翻译是最近提出的机器翻译方法。与传统的统计机器翻译不同,神经机器翻译旨在构建一个可以联合调整以最大化翻译性能的单一神经网络。最近提出的用于神经机器翻译的模型通常属于编码器 - 解码器系列,并将源句子编码为固定长度的向量,解码器从中生成翻译。在本文中,我们推测使用固定长度向量是提高这种基本编码器 - 解码器架构性能的瓶颈,并建议通过允许模型自动(软)搜索部分与预测目标词相关的源句,而不必将这些部分明确地形成为硬段。通过这种新方法,我们在原创 2021-09-01 16:03:02 · 288 阅读 · 0 评论