NLP
BatFor、布衣
hello
展开
-
基于BiLstm-Crf的文本实体抽取(附pytorch代码)
实体抽取实体抽取主要任务就是给定一段文本,从中抽取出实体类单词,实体类单词如人名、地名、组织名、时间等名词性单词,在具体的代码实现中,我们都是事先定义抽取哪几类实体单词,这个根据具体的训练数据集而定,比如人民日报数据集中,定义了人名、地点名、组织名三类实体,在模型训练完成之后,我们的任务就是对输入的句子进行三类实体单词的抽取,并识别出单词具体属于那一类实体。通过上面的介绍,我们会发现这个任务就是一个分类任务,对于中文,在代码实现上,我们是对每个字进行分类。只有一个词才属于一个实体类别,一个字怎么分类呢原创 2020-07-05 01:52:26 · 6109 阅读 · 2 评论 -
句子文本数据如何作为机器学习(深度学习)模型的输入(pytorch)
在我们做机器学习/深度学习时,如何表示一个文本数据并让计算机理解呢,很多深度学习框架,如pytorch,在接受文本数据时,我们都会采用Embedding层作为第一层,那它的作用是啥呢?以中文为例,在这之前,我们都会根据数据集中的所有文本数据构建出一个高频字/词典,中文一般都是构建字典,也就是将句子进行字符级切分,构成字典。比如,给定句子:“我我我我是是是你你爸爸,爸爸”,构建出来的字典文件如下:<PAD> 0我 1是 2你 3爸 4,5<UNK> 6说明:每原创 2020-07-02 01:08:56 · 7847 阅读 · 5 评论