ZeYuyyyy-CSDN博客

原创山东大学软件工程应用与实践----SENTA代码分析（十二）

2021SC@SDUSC本篇博客就是该系列的最后一篇博客了，我将把前面几篇博客所讲的内容进行整合，梳理一下senta的整体架构和之前分析的几个训练模型Senta 代码结构Senta 项目的代码结构以及简介如下，本文重点介绍如何利用 Fluid Python API 完成模型的构建和训练，关于如何利用Fluid C-API 进行模型的在线部署，可以参考该项目的说明文档。Senta├── C-API/ # 模型预测C-API接口├── data/ # 数据集│ ...

2021-12-26 18:36:32 791

原创山东大学软件工程应用与实践----SENTA代码分析（十一）

2021SC@SDUSC这篇文章分析一下senta的模型训练和预测以及其进行数据准备数据格式训练数据格式是制表符分隔值 (tsv) 的格式，每一行代表一条训练数据，以制表符作为分割符分为两个字段。第一个字段是情感倾向，取值为 0 或 1，分别代表消极和积极情感倾向；第二个字段是文本的内容。文本已经经过分词处理，词与词之间用空格分隔。示例训练样本如下：测试数据以同样的方式进行分隔，但在情感类别标签方面和训练数据有一些差别。测试数据中情感倾向共有三类，取值为 0, 1, 2, 分别代表消极.

2021-12-25 13:09:42 788

原创山东大学软件工程应用与实践----SENTA代码分析（十）

2021SC@SDUSC这篇代码主要来分析一下senta里用到的bert模型BERT的全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。该模型有以下主要优点：1）采用MLM对双向的Transforme.

2021-12-23 17:10:04 1452

原创山东大学软件工程应用与实践----SENTA代码分析（九）

2021SC@SDUSC这篇代码来分析models文件夹下的Roberta模型的部分代码roberta-classification.py这个文件中定义了forward函数分析：前向计算组网部分包括loss值的计算,必须由子类实现 :param: fields_dict: 序列化好的id :param: phase: 当前调用的阶段，如训练、预测，不同的阶段组网可以不一样 :return: 一个dict数据，存放TARGET_FEED_NAMES, TARGET_PREDICTS, P

2021-12-18 14:40:26 107

原创山东大学软件工程应用与实践----SENTA代码分析（八）

2021SC@SDUSC这篇代码接着继续分析先来分析base-trainer.py这个文件这个BaseTrainer 类1.运行环境初始化 2.program初始化 3.计算图网络导入 4.模型参数导入 5.运行(reader) 6.模型导出 :param params: 运行的基本参数设置 :param data_set_reader: 运行的基本参数设置 :param model_class: 使用的是哪个model...

2021-12-14 19:42:56 1140

原创山东大学软件工程应用与实践----SENTA代码分析（七）

2021SC@SDUSC这篇来分析senta模式集这个文件里的代码首先先来分析这个文件1.解析input_data的结构2.解析参数，构造inference3. 启动data_generator,开始预测4.回掉预测结果到model中进行解析 :param param: 运行的基本参数设置 :param data_set_reader: 运行的基本参数设置 :param model_class: 使用的是哪个model这个文件中的代码前向计算组网部..

2021-12-09 19:28:31 214

原创山东大学软件工程应用与实践----SENTA代码分析（六）

2021SC@SDUSC接着上篇博客分析这个文件里写的是使用ernie的文本类型的field_reader，用户不需要自己分词处理规则是：自动添加padding,mask,position,task,sentence,并返回length这个文件里写的是基于ernie的序列标注专用field_reader，处理规则和custom_text_field一样，自动添加padding和mask，并返回length 不同的地方在于ErnieSeqlabelLabelFieldR...

2021-12-02 18:21:36 511

原创山东大学软件工程应用与实践----SENTA代码分析（五）

2021SC@SDUSC这篇博客我们讲来分析field-reader这部分代码首先是base-field-reader.py这个文件他是作用于field的reader，主要是定义py_reader的格式，完成id序列化和embedding的操作这个custom-field-reader.py文件是通用文本（string）类型的field_reader,文本处理规则是，文本类型的数据会自动添加padding和mask，并返回length其中定义了这些函数，作用分别是：..

2021-11-23 16:05:10 1102

原创山东大学软件工程应用与实践----SENTA代码分析（四）

2021SC@SDUSC今天来分析ERNIE和Roberta两种情感分析模型领先的语义理解技术与平台文心（ERNIE），依托飞桨打造，集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体，提供一站式NLP开发与服务，让您更简单、高效地定制企业级文本模型支持的NLP任务使用动态图模型进行finetune:python3 ./ernie_d/demo/finetune_classifier.py \ --from_pretrained ernie-1.0..

2021-11-15 18:23:59 1132

原创山东大学软件工程应用与实践----SENTA代码分析（三）

2021SC@SDUSC分析data文件夹中的代码内容data文件夹下面又有data-set-reader field-reader tokenizer 三个文件夹

2021-11-04 20:26:56 123

原创山东大学软件工程应用与实践----SENTA代码分析（二）

2021SC@SDUSCGitHub中的senta源代码如图所示，分为cofig配置文件data数据集model-filesscriptsentavenv虚拟文件主要的核心代码在senta 中先分析senta中common中的代码regist.py里写的是关于注册的regist.py代码rule.py里写的是关于文本的超长截断规则和一些训练评估模型...

2021-10-28 20:17:20 288

原创山东大学软件工程应用与实践----SENTA代码分析（一）

2021SC@SDUSC提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。...

2021-10-18 16:30:57 145

原创山东大学软件工程应用与实践----SENTA代码综述

2021SC@SDUSC一：项目地址：Senta: 百度开源的情感分析系统 (gitee.com)https://gitee.com/baidu/Senta二：项目背景：近年来，随着AI技术的不断发展，NLP领域的一项重要应用技术——文本情感分析也被越来越多的商业场景运用，在消费决策、舆情分析、个性化推荐等领域均有出众表现！百度在情感分析领域开展了深入的技术研发和应用实践。此前，在百度AI开放平台对外开放了评论观点抽取和情感倾向分析服务。近期，还通过Github开放了情感分类开源项目..

2021-09-30 20:32:23 319

qq_46189653的博客