NLP
unique-sunny
这个作者很懒,什么都没留下…
展开
-
零基础入门NLP-新闻文本分类
1、TransformerTransformer是一种新的编码器-解码器架构,它仅使用注意力机制而不是RNN来编码每个位置,并关联有关其自身的输入和输出的两个远端单词,然后可以并行化处理,因而加快训练。2、Attention 模仿人类视觉注意力机制,学习出一个对图像特征的权重分布,再把这个权重分布施加在原来的特征上,为后面任务如图像分类、图像识别等提供不同的特征影响,使得任务主要关注一些重点特征,忽略不重要特征,提高任务效率。 1、给定一组向量集合values,以及...原创 2020-08-04 23:57:11 · 816 阅读 · 0 评论 -
零基础入门NLP-新闻文本分类
1、TextCnnTextCNN中采用的是一维卷积,每个卷积核的大小为\(h \times k\)(h为卷积核的窗口大小,k为词向量的维度),文中采用了多种不同尺寸的卷积核,用以提取不同文本长度的特征(上图种可以看见,卷积核有h=2, 3, 4三种)1.1详细过程原理图1.2 参数Embedding方式、卷积核大小、卷积核个数、激活函数、Dropout、L2正则2、TextRnnTextRNN将Word Embedding输入到双向LSTM中,然后对最后一位的输出输入..原创 2020-07-31 22:37:55 · 303 阅读 · 0 评论 -
零基础入门NLP-新闻文本分类
1、fasttext主要参数lr:学习率dim: 隐藏层词向量维数ws: 背景词窗口大小minCount: 最小词频wordNgrams: n-gram最大长度loss: 损失函数2、fasttext实验主要代码import fasttextimport pandas as pdfrom sklearn.model_selection import train_test_splittrain_df = pd.read_csv('./train_set.csv', s.原创 2020-07-27 23:19:20 · 184 阅读 · 0 评论 -
零基础入门NLP-新闻文本分类
TF-IDF 分数由两部分组成:第一部分是词语频率(Term Frequency),第二部分是逆文档频率(Inverse Document Frequency)。其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频率。TF(t)= 该词语在当前文档出现的次数 / 当前文档中词语的总数IDF(t)= log_e(文档总数 / 出现该词语的文档总数)1、TF-IDF主要参数norm:'l1', 'l2', or None,optional 范数用于标准化词条向量。..原创 2020-07-25 22:52:02 · 133 阅读 · 0 评论