NLP_unique-sunny的博客-CSDN博客

NLP

关注

关注数：文章数：4 文章阅读量：1436 文章收藏量：0

作者: unique-sunny

这个作者很懒，什么都没留下…

展开

零基础入门NLP-新闻文本分类

1、TransformerTransformer是一种新的编码器-解码器架构，它仅使用注意力机制而不是RNN来编码每个位置，并关联有关其自身的输入和输出的两个远端单词，然后可以并行化处理，因而加快训练。2、Attention 模仿人类视觉注意力机制，学习出一个对图像特征的权重分布，再把这个权重分布施加在原来的特征上，为后面任务如图像分类、图像识别等提供不同的特征影响，使得任务主要关注一些重点特征，忽略不重要特征，提高任务效率。 1、给定一组向量集合values，以及...

原创 2020-08-04 23:57:11 · 816 阅读 · 0 评论
零基础入门NLP-新闻文本分类

1、TextCnnTextCNN中采用的是一维卷积，每个卷积核的大小为\(h \times k\)(h为卷积核的窗口大小，k为词向量的维度)，文中采用了多种不同尺寸的卷积核，用以提取不同文本长度的特征(上图种可以看见，卷积核有h=2, 3, 4三种)1.1详细过程原理图1.2 参数Embedding方式、卷积核大小、卷积核个数、激活函数、Dropout、L2正则2、TextRnnTextRNN将Word Embedding输入到双向LSTM中，然后对最后一位的输出输入..

原创 2020-07-31 22:37:55 · 303 阅读 · 0 评论
零基础入门NLP-新闻文本分类

1、fasttext主要参数lr：学习率dim: 隐藏层词向量维数ws: 背景词窗口大小minCount: 最小词频wordNgrams: n-gram最大长度loss: 损失函数2、fasttext实验主要代码import fasttextimport pandas as pdfrom sklearn.model_selection import train_test_splittrain_df = pd.read_csv('./train_set.csv', s.

原创 2020-07-27 23:19:20 · 184 阅读 · 0 评论
零基础入门NLP-新闻文本分类

TF-IDF 分数由两部分组成：第一部分是词语频率（Term Frequency），第二部分是逆文档频率（Inverse Document Frequency）。其中计算语料库中文档总数除以含有该词语的文档数量，然后再取对数就是逆文档频率。TF(t)= 该词语在当前文档出现的次数 / 当前文档中词语的总数IDF(t)= log_e（文档总数 / 出现该词语的文档总数）1、TF-IDF主要参数norm：'l1', 'l2', or None,optional 范数用于标准化词条向量。..

原创 2020-07-25 22:52:02 · 133 阅读 · 0 评论

NLP

作者: unique-sunny

零基础入门NLP-新闻文本分类

零基础入门NLP-新闻文本分类

零基础入门NLP-新闻文本分类

零基础入门NLP-新闻文本分类