嗷呜酱-CSDN博客

原创增加输入的token长度

1、提高训练的token长度，将训练语料的句子进行拼接，从而学习到更多的语义信息，输入的token长度大概为500左右（bert要求小于512）。2、保证训练的token长度和测试的token长度大致相同，提高模型在测试集上的准确率。...

2020-07-01 20:17:23 813

原创 Bert模型相关（增加至6个标点）

在以前工作的基础上，为了提高模型的普适性，又将模型的三种标点增加到六种标点，包括：逗号、句号、问号、冒号、感叹号、顿号。将数据集处理为txt时，对应关系如下：处理后的数据集如下：句子之间以空格分离之后的工作和三个标点的完全相同，再次训练模型，得到以下结果：在小学生高年级上的测试结果：在小学生低年级上的测试结果：...

2020-06-30 23:04:10 2250 1

原创 bert模型相关（模型训练）

模型训练结果1、训练2、小学生高年级（4，5，6年级）作文数据测试集结果3、测试输入

2020-06-30 17:38:29 292

下面介绍一下模型主要的代码1、构建 example每个example的构成：guid：示例的唯一ID，比如训练集就是train-1009，测试集就是test-1009text_a：字符串。第一个序列的未标记文本(无符号的)。由于是单序列任务，仅必须指定此序列。tag：（可选）字符串，example的标签，也就是上面的tag，只为训练集和验证集的example指定标签，但不为测试集指定。class InputExample(object): def __init__(self, gu

2020-06-29 11:45:17 4075 3

原创 bert模型相关（bert微调思想）

模型微调模型用了bert的中文预训练模型，直接在runclassify.py上做的修改修改后的模型示意图：1. 去除segment层因为直接采用了字符作文输入，不再需要segment层。2. 去掉了[CLS] 和[SEP]因为考虑到在预测的时候可能在句中出现[CLS]和[SEP]的label，但是这种标记不属于标点符号。3. 替换bert分词器对于作文中可能出现的英文单词还要考虑子词划分的问题，比如这里把playing 分成play 和##ing，原始的数据是words长度为200，对应

2020-06-28 10:37:53 1089

原创 bert模型相关（bert输入处理）

模型输入处理1、构建example为json文件里的每个word和tag构建对应的example，每个example的构成：guid：示例的唯一ID，比如训练集就是train-1009，测试集就是test-1009text_a：字符串:第一个序列的未标记文本(无符号的)。由于是单序列任务，仅必须指定此序列。lable：（可选）字符串，example的标签，也就是上面的tag，只为训练集和验证集的example指定标签，但不为测试集指定。2、构建feature为每个example构

2020-06-28 10:14:08 2314

原创模型输入数据处理（处理为json文件）

在数据集处理为txt格式的情况下，需要进一步为json格式，先展示一下处理后的json个数据：每一行是一个json格式数据，包含两个字段，word和tag，word就是每个字的ascll码表示，如果是数字就表示为NUM，tag是两次之间是空格还是标点，是标点要指明是什么标点。下面介绍一下处理过程：1、导入需要的模板import osfrom tqdm import tqdmfrom collections import Counterimport numpy as npimport co

2020-06-26 17:01:58 796

原创模型输入数据处理（处理为txt文件）

下面就人民预料的数据集，讲一下数据集如何进行分割和预处理，对于儿童文学数据集也是同样的方法。（1）源数据格式：（2）处理过程打开文件打开文件”2014_corpus.txt“，设定为只读模式，编码为utf-8，读取每一行。with open(file,'r',encoding='utf-8') as fp: lines = fp.readlines() processed_lines = []处理标点目前模型先尝试预测几种标点符号，包括：COMMA（逗号）、PER

2020-06-24 18:13:58 848

原创训练数据相关介绍

为了区分高年级和低年级的模型，我们决定采用区分输入预料的方法来针对不同年级，训练不同的模型：对于高年级，采用“2014 人民日报”作为训练集进行训练，大小为116 MB；对于低年级，采用找到的“儿童文学”语料作为训练集，大小目前为16.1 MB，之后应该还要扩充；...

2020-06-23 22:36:36 387 1

原创深入了解中文标点预测算法（二）

一些研究成果介绍1、Punctuation Prediction for Unsegmented Transcript Based on Word Vector这篇为每一个词打标签，这个标签代表这个词后的标点符号类型。如下图所示，输入用5个词来预测5个词中间那个词的标点符号类型，使用了GloVe词向量进行词嵌入。作者运用了两个CNN模型分别是CNN-1和CNN-2。一个是一维卷积，一个二维卷积。2、Distilling Knowledge from an Ensemble of Models f

2020-06-22 22:42:47 1105

原创深入了解中文标点预测算法（一）

目前查找到的算法大多基于bert模型，对于bert模型进行微调，由于BERT论文中提供了序列标注的思路，所以单纯使用原论文的bert模型跑一下就可以得到比较满意的结果，目前我查找到的几个思路：1、使用原论文中的bert模型论文：BERT：Pre-training of Deep Bidirectional Transformer for Language Understanding2、使用bert模型+微调项目：入口思想：在预训练的BERT掩码语言模型（BertForMaskedLM）的顶部添

2020-06-20 21:02:31 2359

原创小学生作文数据集处理（处理为无标点文本）

前提经过昨天的数据清洗，得到了标点正确，每一行表示一段的小学生作文数据集。原因我们在模型评估和测试中，需要输入不带标点的作文，然后输出模型预测标点后的作文。因此接下来需要对小学生作文数据集进行去标点操作。注需要注意，这里不能直接去除所有非中文字符的标点（踩过坑），这样会连同数字等等的标点都去除。去除中文标点的方法下面以去除高年级作文的标点为例准备：安装python模板：zhon命令：pip install zhon -i https://pypi.tuna.tsinghua.edu.

2020-06-19 21:09:11 414

原创小学生作文数据集处理（数据清洗）

数据清洗相关准备目标针对合并的后的作文数据集，需要进行进一步的数据清洗，使得每一个行是一个段落，且标点符号的使用必须正确。只有经过数据清洗，才能保证模型的训练不受影响，脏数据可能会导致训练的模型准确率低，甚至训练出错的模型语言python开发工具jupyter notebook数据清洗步骤读取文件读取源数据文件并创建目标数据文件f1=open(r'C:\Users\langgoubao\Desktop\Senior_data.txt','r',encoding='utf-8')#

2020-06-18 18:23:52 684

原创小学生作文数据集处理（合并doc为txt）

1、源数据集介绍找到的数据集都是doc格式，为了方便变成处理，将数据集进行合并，并处理为txt格式，在合并的过程中，只保留作文的正文部分，比如：作文标题、评语、作者、指导教师等相关信息都删除。在原来的doc格式中存在大量的空格，不规则字符等，也需要一一删除，比如空白框，？？？等：需要整合的数据集如下:2、数据集整理将以上作文数据整合为两个txt，一个低年级.txt，和一个高年级.txt，其中衡量标准是，日记等相对表达简单的作文归为低年级，而比较优秀的好句、好短、范文等归为高年级。在每

2020-06-17 21:26:01 378 1

原创小学生作文数据集查找

1、查找数据集为了下一步训练、测试、评估模型，在网络上查找大量的数据集，因为小学生的作文水平和我们日常用的自然语言处理数据集还是有一定的差距，为了使得模型修正准确率提高，我们决定采用和小学生作文水平相当的训练集。找的部分数据集如下：2、合并数据集为了对不同年龄段的学生作文更有针对性的修正，我们将数据集进行合并、处理，为1-2年级，3-4年级，5-6年级的txt格式文档。...

2020-06-16 22:47:05 428

原创中文标点预测算法相关研究整理

中文标点预测算法相关研究整理论文项目论文1、基于深度学习的中文语音转录标点预测研究知网论文入口2、基于改进的多层BLSTM的中文分词和标点预测知网论文入口3、基于自注意力机制的中文标点符号预测模型知网论文入口4、基于深度学习的标点预测研究知网论文入口5、基于统计的汉语意见文本校对系统设计与实现知网论文入口6、基于深度学习的中文标点符号审校算法研究知网论文入口项目1、本项目用多层BLSTM模型搭建的联合框架进行了中文分词和标点预测github项目入口2、BertPunc基于

2020-06-11 18:37:04 1135

原创基因组层次聚类实战小案例

生物数据常用聚类方法整理及实战层次聚类k均值聚类自组织图SOM双向聚类基因聚类实战层次聚类步骤（1）从N个数据对象分别位于不同的聚类类群开始，根据距离矩阵，距离最近的两个类群先被选中，合并为一个新的聚类类群，从而定义出一个具有N-1个聚类类群的数据划分方案。（2）距离矩阵中，与合并前的两个聚类类群相关的部分替换为这个新形成的聚类类群，并计算新类群和其他类群之间的距离。（3）重复上述过程，直到所有聚类类群合并为一个最终的聚类类群。根据距离计算方法的不同，层次聚类可以分为以下几类：1、单连接聚类

2020-06-09 16:09:27 2183

原创生物大数据常用聚类方法整理

生物大数据常用聚类方法整理层次聚类k均值聚类自组织图SOM双向聚类层次聚类步骤（1）从N个数据对象分别位于不同的聚类类群开始，根据距离矩阵，距离最近的两个类群先被选中，合并为一个新的聚类类群，从而定义出一个具有N-1个聚类类群的数据划分方案。（2）距离矩阵中，与合并前的两个聚类类群相关的部分替换为这个新形成的聚类类群，并计算新类群和其他类群之间的距离。（3）重复上述过程，直到所有聚类类群合并为一个最终的聚类类群。根据距离计算方法的不同，层次聚类可以分为以下几类：1、单连接聚类采用两个类群中

2020-05-29 09:34:15 1282

原创 Web技术基础概念

1、本地计算机与远程服务器2、静态页面与动态页面3、静态页面技术与动态页面技术4、Web应用工作原理

2019-08-01 10:58:18 991

qq_39898307的博客