阿里中文预训练模型泛化能力挑战赛 Task1

阿里中文预训练模型泛化能力挑战赛 Task 1

背景

赛题以自然语言处理为背景,要求选手通过算法实现泛化能力强的中文预训练模型。通过这道赛题可以引导大家更好地理解预训练模型的运作机制,探索深层次的模型构建和模型训练,而不仅仅是针对特定任务进行简单微调。

Baseline报错整理

首先来看import这块的报错

import sys
import os
import tensorflow as tf
from easytransfer import base_model, Config, FLAGS
from easytransfer import layers
from easytransfer import model_zoo
from easytransfer import preprocessors
from easytransfer.datasets import TFRecordReader
from easytransfer.losses import softmax_cross_entropy
from sklearn.metrics import classification_report
import numpy as np

首先注意这里需要额外导入的package包括以下两个
pip install tensorflow-gpu --user ##这样不容易爆权限错误
pip install easytransfer
输出结果如下:
在这里插入图片描述
这个是因为tensorflow2.1已经没有tf.logging了
逛坛子得知解决方法如下:
将tf.logging替换成tf.compat.v1.logging
但还是报错 所以这里我还是老老实实根据环境配置的tips

  • tensorflow-gpu 1.12.3
  • easytransfer 0.1.2

实际情况是没有得到解决
在这里插入图片描述
然后在群里看到水哥说baseline有用tf2的tf1.4的有用pytorch的
时间有限这里没有cover

class Application(base_model):
    def __init__(self, **kwargs):
        super(Application, self).__init__(**kwargs)
        self.user_defined_config = kwargs["user_defined_config"]

    def build_logits(self, features, mode=None):

        preprocessor = preprocessors.get_preprocessor(self.pretrain_model_name_or_path,
                                                      user_defined_config=self.user_defined_config)

        model = model_zoo.get_pretrained_model(self.pretrain_model_name_or_path)

        global_step = tf.train.get_or_create_global_step()

        tnews_dense = layers.Dense(15,
                     kernel_initializer=layers.get_initializer(0.02),
                     name='tnews_dense')

        ocemotion_dense = layers.Dense(7,
                             kernel_initializer=layers.get_initializer(0.02),
                             name='ocemotion_dense')

        ocnli_dense = layers.Dense(3,
                             kernel_initializer=layers.get_initializer(0.02),
                             name='ocnli_dense')

        input_ids, input_mask, segment_ids
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
本项目主要基于PaddleHub通过预训练模型Erine-tiny在中文7情感分类数据集OCEMOTION上进行微调从而完成7分类情感分析模型的搭建,并基于PyQt5完成了最终中文微情感分析系统的开发,支持单条和批量文本细粒度情感分类预测,具有前沿性和广泛的应用价值。同时全流程教程讲解将带你拿下一个完整文本分类项目的开发! PaddleHub实战:基于OCEMOTION中文微情感分析系统 完整项目地址:https://aistudio.baidu.com/aistudio/projectdetail/2211726 二.项目亮点: a.不同于传统的情感2分类(正向和负向),本项目使用了7分类数据集OCEMOTION可以达到更细粒度的情感分析,从而可以更好分析用户评论中表达情感,具有前沿性和广泛的应用价值。 b.基于PaddleHub通过预训练模型Erine-tiny的微调完成情感分析模型的搭建。基于大规模未标注语料库的预训练模型(Pretrained Models, PTM) 能够习得通用的语言表示,将预训练模型Fine-tune到下游任务,能够获得比传统分类模型Lstm等更出色的表现,也成为了目前竞赛及项目的主流选择。另外,预训练模型能够避免从零开始训练模型。 c.面向小白的全流程实战教程,全流程细致讲解带你拿下一个完整的文本分类实战项目!项目可扩展性高,感兴趣的也可以在其基础上做出更多的优化或迁移到类似的文本分类项目中去哦! 三.情感分析研究意义: 在评论网站、论坛、博客和社交媒体中,可以获得大量表达意见的文本。而这些文本数据都是非结构化的,没有以预先定义的方式组织,数据量庞大通常难以分析、理解和分类,既费时又费钱。而在情感分析系统的帮助下,这种非结构化信息可以依靠自动化业务流程以有效且低成本的方式大规模转换为结构化数据,极大减少人工标注成本,提高效率。情感分析在舆情监控、话题监督、口碑分析等商业分析领域有着非常重要的应用价值。目前该技术也已有着较广泛的应用,例如新浪微博运用情感分析对全网数据进行挖掘构建舆情大数据平台。电商平台运用情感分析来进行商品评论挖掘,作为推荐系统的一部分提高营销效果。小度机器人通过识别用户在聊天中的情绪,帮助选择出更匹配用户情绪的文本进行回复。在不远的未来,情感分析也将成为现代公司不可或缺的工具。但目前情感分析仍然局限于有限的简单分类主要为2分类,而有限的情感分类并不能很好地挖掘文本中包含的微情感,不能很好地满足需求。故细粒度的情感分析研究具有前沿性和更广泛的应用价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值