nlp任务流程
本【NLP】栏目面向中文
- 文本语料
根据任务类型,去选择语料类型。例如问答的就找问答语料,翻译的就找翻译语料
· 来源网络语料
· 写爬虫爬取
具体请移步:传送门 - 文本预处理
根据任务需求,去做相应的预处理。
· 文本数据清洗
· 分词
· 去停用词
· 词性标注
· 同义词识别
· 命名实体识别
具体请移步:传送门 - 文本表示(文字转为数字)
转为数字除了让计算机读懂,更要关注的是使用怎样的数字能表示字、字词、句子的意思。
· 传统表示
· 分布式表示
具体请移步:传送门 - 搭建神经网络
根据任务类型,去选择合适的网络搭建。例如生成模型还是判别模型(分别对应例如句子生成和文本分类)
具体请移步”:传送门
· HMM > RNN - LSTM - BiLSTM - GRU > Seq2Seq - Attention - self-Attention > Transfomer > BERT
· MLP > NNLM > DeepBiLSTM > ELMO >XLNet
· 结合知识图谱
· 结合GAN、RL
未完,持续更新…