![](https://img-blog.csdnimg.cn/20200709151058144.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
项目总结
PRO
funNLPer
2 B A NB NLPer
展开
-
TextCNN多标签分类
1.数据处理(1)去除包含缺失值的样本(2)使用空格代替句子中的标点等特殊符号(3)使用jieba进行分词(2)(3)两步使用了多线程(4)对样本进行 zero pad,并转化为id(5)对多标签分类的标签进行数值化...原创 2020-07-19 17:36:07 · 1055 阅读 · 0 评论 -
基于CNN的高中试题知识点自动标注
1. 数据集样本是高中的试题,标签是试题涉及的知识点。每个题目涉及到多个知识点,也就是多标签。一共有95个类别1.2 数据预处理(1)开多进程进行文本的清洗和分词,主要是取出样本中的数字,标点以及其他特殊字符(2)确定输入最大长度,使得输入的最大长度能够覆盖95%的样本,不足这个长度,就 zero pad;超过了这个长度,就截断(3)sklearn的多标签处理工具,对多标签进行数值化(4)设置最低词频为5, 然后构建词表(5)加载预训练好的百度百科词向量,取出词表中词对应词向量(6)处理多标原创 2020-06-27 16:57:06 · 1125 阅读 · 3 评论 -
基于BiLSTM+CRF的医疗领域命名实体识别
1. 数据介绍原始数据集主要包括病例和医疗命名实体字典, 病例数据如下图所示,每份病例都存储在一个txt文件中医疗命名实体字典如下所示2. 项目任务2.1 数据标注本次使用双向最大匹配+实体词典进行实体自动标注;具体过程参考:双向最大匹配和实体标注:你以为我只能分词? 采用的实体标注格式为BIO;BIO格式就是说,对于实体词,第一个字标注为B,其他的字标注为I;对于非实体词,每个字都标注为O补充:前向最大匹配法原理(1)计算词典中实体的最大长度,作为截取句子片段的最大长度(2)对句子进行原创 2020-07-06 00:35:54 · 1901 阅读 · 0 评论