讯飞:汽车领域多语种迁移学习挑战赛

载入数据----------

import pandas as pd

train_cn = pd.read_excel('./汽车领域多语种迁移学习挑战赛初赛训练集/中文_trian.xlsx')
train_ja = pd.read_excel('./汽车领域多语种迁移学习挑战赛初赛训练集/日语_train.xlsx')
train_en = pd.read_excel('./汽车领域多语种迁移学习挑战赛初赛训练集/英文_train.xlsx')
test_ja = pd.read_excel('testA.xlsx', sheet_name='日语_testA')
test_en = pd.read_excel('testA.xlsx', sheet_name='英文_testA')

dataset = [train_cn,train_ja,train_en,test_ja,test_en]
#查看代码大小以及信息
for data in dataset:
    print(data.shape)

train_cn.info()

文本分析与文本分词-----------

#中文分词
import jieba

def cutword(txt):
    return jieba.lcut(txt)

train_cn['分词'] = train_cn['原始文本'].apply(cutword)

#英文分次
import nagisa

def cutword_jp(txt):
    words = nagisa.tagging(txt)
    return words.words

train_ja['分词'] = train_ja['原始文本'].apply(cutword_jp)

TFIDF与文本分类---------

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值