讯飞：汽车领域多语种迁移学习挑战赛

最新推荐文章于 2024-09-13 17:09:59 发布

LYJ梁

最新推荐文章于 2024-09-13 17:09:59 发布

阅读量216

点赞数

文章标签：汽车迁移学习 python

本文链接：https://blog.csdn.net/Spirulina_cn/article/details/125906410

版权

该代码段载入了汽车领域的多语种训练集和测试集，包括中文、日语和英文。对中文文本进行了jieba分词，而日语文本使用nagisa进行分词。接下来的步骤可能涉及TF-IDF和文本分类，以生成新的标题、摘要、关键词和标签。请注意，提供的标签体系结构涵盖了信息技术的多个细分领域。

摘要由CSDN通过智能技术生成

载入数据----------

import pandas as pd

train_cn = pd.read_excel('./汽车领域多语种迁移学习挑战赛初赛训练集/中文_trian.xlsx')
train_ja = pd.read_excel('./汽车领域多语种迁移学习挑战赛初赛训练集/日语_train.xlsx')
train_en = pd.read_excel('./汽车领域多语种迁移学习挑战赛初赛训练集/英文_train.xlsx')
test_ja = pd.read_excel('testA.xlsx', sheet_name='日语_testA')
test_en = pd.read_excel('testA.xlsx', sheet_name='英文_testA')

dataset = [train_cn,train_ja,train_en,test_ja,test_en]
#查看代码大小以及信息
for data in dataset:
    print(data.shape)

train_cn.info()

文本分析与文本分词-----------

#中文分词
import jieba

def cutword(txt):
    return jieba.lcut(txt)

train_cn['分词'] = train_cn['原始文本'].apply(cutword)

#英文分次
import nagisa

def cutword_jp(txt):
    words = nagisa.tagging(txt)
    return words.words

train_ja['分词'] = train_ja['原始文本'].apply(cutword_jp)