python对数据的一些处理方法

with open('./cnews/cnews.train.txt', encoding='utf8') as file:
    label_list = [k.strip() for k in file.readlines()]  #去两边的空格
    train_label_list = [k.split()[0] for k in label_list] #标签
    train_content_list = [k.split(maxsplit=1)[1] for k in label_list] #内容
with open('./cnews/cnews.vocab.txt', encoding='utf8') as file:
    vocabulary_list = [k.strip() for k in file.readlines()]
word2id_dict = dict([(b, a) for a, b in enumerate(vocabulary_list)]) #key是word , value是 数字 ,将列表转化为字典
content2idList = lambda content : [word2id_dict[word] for word in content if word in word2id_dict] #一个函数,将文章中的每个字转换成id,返回一个数字的list
train_idlist_list = [content2idList(content) for content in train_content_list] #每个元素代表一行content,是一个数字的list

label2id_dict = dict([(b, a) for a, b in enumerate(set(train_label_list))])
train_labelid_list = [label2id_dict[label] for label in train_label_list]

数据处理,数字化,向量化,建词典

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值