【Text_classification】 PaddlePaddle框架下出错调整到运行的实验和记录

最新推荐文章于 2024-09-14 07:43:57 发布

追赶早晨

最新推荐文章于 2024-09-14 07:43:57 发布

阅读量305

点赞数

分类专栏：知识图谱实战-编程合集知识图谱文章标签： pycharm python 机器学习

本文链接：https://blog.csdn.net/qq_35222729/article/details/120390285

版权

知识图谱同时被 2 个专栏收录

74 篇文章 24 订阅

订阅专栏

知识图谱实战-编程合集

25 篇文章 1 订阅

订阅专栏

使用的是Paddle框架2.0版本
网页： https://github.com/PaddlePaddle/PaddleHub/tree/release/v2.1/demo/text_classification
也可以在其平台上利用公开数据集跑一跑：
网页：https://aistudio.baidu.com/aistudio/projectdetail/2390146?contributionType=1

使用的预训练框架是：Ernie-tiny

下面记录我自己的实验数据：

1. 记录预训练模型下载位置

在这里插入图片描述
下载的模型存储到这里了！！！
因为模型一般会定义一个位置提前加载预训练模型，这样就不会重复下载了！只需要扫描并加载！

2. 语法出错合集

问题一：header：是不是有第一行的标签！！！

在这里插入图片描述
是不是包含了头介绍：
就是是不是有第一行的标签！！！

问题二： KeyError

说明在读入数据时就出现了问题
造成这个问题的原因一般是没有该key！

仔细看下面的代码可以看出：
record[‘label’] = slef.label_map[example.label] ！
在这里插入图片描述
再看看你的label定义：

 label_list = ['城市事件类;宣传广告', '城市事件类;扩充类别', '城市事件类;街面秩序', 
 '城市部件类;市政公用设施', '城市事件类;市容环境']

这是text不是label！不出错才怪呢！

是这个函数有问题：

在这里插入图片描述
在该函数中，第一个先读的label！第二读的text！
而自己的数据集第一列是text！所以导致错误！

我们在base_NLP_dataset中将源码调整为label 是第一列！ text文本是第二列！但是这样是有问题的！
原因一：我们pycharm中改正可能在linux下没有改正
原因二：这样改正还是不行的！

解决方法：修改自己的数据集，将两列互换！

下面是实现方法：

两列互换 DF yyds

import pandas
import pandas as pd

实现行列互换 DF yyds

path = "/home/wxx/progressfiles/project_pc_NLP/Texts_Classification/demodataset/dev.txt"
data = pandas.read_table(path)

df = pd.DataFrame(data)

print(df.head())
print(df["text_a"])

df[['label', 'text_a']] = df[['text_a', 'label']]
df.columns = ['label', 'text_a']
print(df.head())
df.to_csv("/home/wxx/progressfiles/project_pc_NLP/Texts_Classification/demodataset/dev2.txt", sep="\t", index=0)