论文:https://arxiv.org/pdf/1810.04805.pdf
官方代码:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT
任务总结(归纳方式有待改善)
1、序列标注:分词,词性标注,命名实体识别(NER)
命名实体识别:找出一句话中的感兴趣实体,例如找一句话中的地址名,人名等。
分词:(还在学习中,请参考NLP ---分词详解(常见的五种分词技术二)_进击的菜鸟-CSDN博客_分词)。
词性标注:例如找出一句话中的名词,动词等。
2、分类任务:文本分类,情感计算
文本分类:例如判断淘宝的评价为正面的还是负面的。
情感计算:(还在学习中)。
3、句子关系判断:entailment(分类为蕴含或矛盾),相似度计算
entailment:(还在学习中)
相似度计算:例如判断两句话是否是同一个意思。
4、生成式任务:机器翻译,问答系统,文本摘要
机器翻译:(还在学习中)
问答系统:官方例子中,给定一句话和针对这段话的一个提问,答案是这段话中的一部分内容。这里不需要提炼概括。真实的问答系统什么样还不清楚,才开始学习NLP。
文本摘要:(还在学习中)
接下来的文章中主要讲解以下任务:
(1)官方例子:两句话是否含义相同
(2)官方例子:问答系统。给定一句话和针对这段话的一个提问,答案是这段话中的一部分内容。这里不需要提炼概括。
(3)命名实体识别(NER-BiLstm-CRF),一句话中找出地名、人名等。
每个任务按照:数据-->标注-->方法-->原理讲解。这样的顺序进行讲解。