weixin_40711135-CSDN博客

原创小学生标点符号修正工作内容汇总-方向算法2

小学生标点符号修正工作内容汇总-方向算法21.相关算法的查找和模型的确定1.1模型的确定及其亮点2.数据集的查找与预处理2.1 数据集的选取及处理2.2 针对测试情况生成的用于测试的数据1.生成一逗到底数据集2.生成模拟少量错误标点的小学生作文数据集3.基于bert的实体识别3.1 bert_bilstm_crf_ner模型1.模型的定义BERT+Bilstm+CRF1.1Bilstm+CRF模型1.2Bert模型2.数据准备3.Dataprocessor的改写4. model的定义4. 对数据集的预处理构

2020-07-01 15:24:44 302

原创 bert_ner_punc（三）

bertpunc加实体识别的微调（二）训练数据集Training算法效果呈现训练数据集儿童文学（低年级）+人民日报（高年级）Training高年级训练过程：高年级准确率：低年级训练过程：低年级训练准确度：算法效果呈现...

2020-07-01 11:55:17 145

原创 bert_ner_punc（二）

bertpunc加实体识别的微调（二）模型的主要介绍1.参数设定！！需要调节！1.transfer模型的初始化3.Multi-task learning！！有问题3.1多任务的分层定义3.2shared层与punc和ner的结合4.loss的定义5.构建模型6.优化器的选择AdamOptimizer下面是根据代码的模型讲解模型的主要介绍1.参数设定！！需要调节！It consists of task shared layers, two task specific classifiers and a

2020-06-30 22:43:43 269

原创 bert_ner_punc（一）

标点符号的匹配+bert与实体识别的微调（一）通过遍历的方法matchbert与实体识别的微调（一）multi-task定义两个task的分别定义通过遍历的方法matchf1=open('data/wrong.txt','r')lines_a=f1.readlines()f2=open('data/right.txt','r')lines_b=f2.readlines()out_file = open('out.txt','w')i=0for line_a in lines_a:

2020-06-28 23:56:50 532

原创 bert_ner_punc

bert和实体识别的融合（1）优点：多任务学习和对抗训练相结合，可以从额外的实体识别任务中学习任务不变信息。实体识别任务通过多任务学习用作辅助任务，以进一步提高标点预测任务的性能。对抗性损失用于防止共享空间包含任务特定信息。实现方法：两个任务特定分类器和一个对抗性任务鉴别器组成。任务共享层来自预训练的BERT模型，任务特定的分类器分别用于标点预测任务和实体识别任务。...

2020-06-26 23:43:08 147

原创实体识别(二)

实体识别的训练数据集的准备预处理训练训练数据集to do list数据集的准备1.SighanNER datasethttp://sighan.cs.uchicago.edu/bakeoff2006/2.MSR datasethttp://sighan.cs.uchicago.edu/bakeoff2005/预处理训练通过预处理对训练集测试集进行相关的处理并生成对应的标记文件，词向量等：训练数据集训练中：结果准确率to do list模型合并并测试结果，进行对比匹配。...

2020-06-25 23:58:12 611 1

原创实体识别(一)

实体识别的处理1.Transfer model的定义2.adversarial的定义3.正则化的定义4. to do list1.Transfer model的定义class TransferModel(object): def __init__(self,setting,word_embed,adv,is_train): self.lr = setting.lr self.word_dim = setting.word_dim self.lstm

2020-06-24 23:53:43 994

原创算法梳理

算法梳理1.Adversarial Transfer Learning for Punctuation Restoration论文思路整理模型的结构（1）实体识别对标点符号处理的帮助（2）对抗性训练2.相关的Adversarial Transfer Learning模型的查找3.to do list1.Adversarial Transfer Learning for Punctuation Restoration论文思路整理模型的结构它由任务共享层，两个任务特定分类器和一个对抗性任务鉴别器组成。任务

2020-06-23 23:53:49 204

原创小学生作文集的数据处理生成

小学生作文集的数据处理1.生成一逗到底数据集原始数据集效果：生成数据集效果：2.生成模拟少量错误标点的小学生作文数据集原始数据集效果：生成数据集效果：3.训练模型的确定4.to do list5.参考文献1.生成一逗到底数据集低年龄阶段的小学生习惯于所有标点符号全部为逗号，根据小学生范文，修改其中的所有标点符号为逗号来模拟一逗到底数据集：调用中文标点包：from zhon.hanzi import punctuation对高低年级的作文集分别做如下处理（例子为高年级数据集的处理）首先遍历每一行

2020-06-22 23:51:57 373

原创儿童读物的数据集清洗（三）

儿童读物的数据集清洗1.完成全部数据集的清洗2.合并数据集3.to do list1.完成全部数据集的清洗根据昨天的数据集清洗方法，清洗完成全部的数据集如下所示：2.合并数据集将不容的小故事的数据集合并成一个txt文件这些数据将做为训练数据集进行标点符号的预训练3.to do list处理小学生作文数据集，随机生成错误的标点符号，形成小学生含错误标点的样本。...

2020-06-19 23:51:08 163

原创儿童读物数据集的清洗（二）

儿童读物的数据清洗1.源数据集的介绍2.数据的最终呈现形式3.对于数据集停用词的处理4.接下来的计划1.源数据集的介绍测次的训练数据集采取儿童文学的数据包含大量的设计童话、小故事、科普知识等的内容，年龄跨度大，可以适合低年级：1～3年级的基本写作和阅读范围，同时较为复杂的科学知识，丰富的故事等可以适合高年级：4～6年级的丰富写作水平也能符合。数据集原始为一个故事为一个txt文档，存储在对应的文件夹下：且每个txt文件中，包含一些网页作者等信息，章节名称、空格等，会影响标点符号训练的效果需要

2020-06-18 23:50:58 416

原创儿童读物数据集的清洗（一）

6月17日实训记录儿童文学的相关数据集是分散在每一个文件夹下有一本书，做为总的训练集需要汇总成一个txt文件，今天进行了部分的数据集的整理入图：将文章开头的一些信息和描述去除消除所有的间隔和章节的描述，形成一个长文本的形式。如下图：...

2020-06-17 23:52:58 357

原创文章数据集的分类和查找整理

6月16日工作进展按照年级分为三类，1、2年级为幼儿读物数据集补充，3、4年级为杂志数据集补充，5、6年级为报刊等数据集的补充。查找了杂志的相关数据集，以儿童文学的txt文档为补充文章。...

2020-06-16 23:37:02 549

原创中文标点符号自动添加相关工作的整理

中文标点符号自动添加相关工作的整理@TOC中文标点符号自动添加相关工作的整理1.[开源]文本标点符号的自动标注http://ai.baidu.com/forum/topic/show/9578872.Deep Learning for Punctuation Restoration in Medical Reportshttps://www.researchgate.net/publication/318739477_Deep_Learning_for_Punctuation_Restoratio

2020-06-15 23:31:54 2424

weixin_40711135的博客