nlp
文章平均质量分 79
Loiser1
这个作者很懒,什么都没留下…
展开
-
天池nlp学习赛(6)基于机器学习的文本分类3 (Bert)
基于深度学习的文本分类3 文章目录基于深度学习的文本分类3part1:文本表示方法4 — 编码器:Transformer(1)位置编码(2)自注意力机制(3)残差连接(4)feed forwardpart2:两种预训练的方式(1)Masked LM (masked language model)(2)Next Sentence Predictionpart3:微调使用方法(1)模型训练(2)微调这里只说明一下其中的文本分类部分:另外对于bert网络上还有其它一些包可以借鉴(HuggingFace 里面有tr原创 2020-08-13 14:14:32 · 335 阅读 · 0 评论 -
天池NLP学习赛(5)基于深度学习的文本分类2(word2vec与TextCNN实现文本分类)
文章目录基于深度学习的文本分类2part 1:文本表示方法 3:word2vec(一) 主要内容(二)word2vec例子(1)使用gensim库(2)word2vec API(3)训练集文本处理与模型训练(4)模型查看与使用part 2:TextCNN(一)利用训练好的word2vec模型嵌入训练集(1) 先构造一个字典来表示每个词与对应的词向量(2)把input的文字变为数字(4)带入模型(5)把lable编码,进行模型测试part 3:TextRNNpart 4:HAN (Hierarchical A原创 2020-08-02 01:34:53 · 1801 阅读 · 2 评论 -
天池NLP学习赛(4)基于深度学习的文本分类(fastText)
fastText 文本表示方法 Part2 学习地址 在上一章节,我们介绍几种文本表示方法: One-hot、Bag of Words、N-gram、TF-IDF 缺陷是:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。 确切地说:只是将文本中的各个词汇的某个统计量作为特征,没有利用单词所在位置的信息 与这些表示方法不同,深度学习也可以用于文本表示,还可以将其映射到一个低纬空间。其中比较典型的例子有:FastText、Word2Vec和Bert。在本章我们将介绍Fa原创 2020-07-27 22:11:03 · 245 阅读 · 0 评论 -
天池NLP学习赛(3)基于机器学习的文本分类
文章目录基于机器学习的文本分类文本表示方法step 1:one-hotstep 2:Bag of Words(词袋表示/Count Vectors)step 3:N-gramstep* : 对中文文本的操作step 4:TF-IDFexample&practice1.Bags of words& RidgeClassifier2.TF-IDF & SVM 基于机器学习的文本分类 文本表示方法 step 1:one-hot 将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索原创 2020-07-25 22:58:37 · 194 阅读 · 0 评论 -
天池NLP学习赛(2)EDA
EDA import numpy as np import pandas as pd Path=r"C:/Users/10539/Desktop/nlp/" df_train = pd.read_csv(Path+'train_set.csv', sep='\t') df_test = pd.read_csv(Path+'test_a.csv', sep='\t')= df_train.head() label text原创 2020-07-23 00:29:45 · 204 阅读 · 0 评论