python对数据的一些处理方法

最新推荐文章于 2024-06-21 13:19:16 发布

DedicateToAI

最新推荐文章于 2024-06-21 13:19:16 发布

阅读量444

点赞数

分类专栏： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DedicateToAI/article/details/87629628

版权

nlp 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

with open('./cnews/cnews.train.txt', encoding='utf8') as file:
    label_list = [k.strip() for k in file.readlines()]  #去两边的空格
    train_label_list = [k.split()[0] for k in label_list] #标签
    train_content_list = [k.split(maxsplit=1)[1] for k in label_list] #内容
with open('./cnews/cnews.vocab.txt', encoding='utf8') as file:
    vocabulary_list = [k.strip() for k in file.readlines()]
word2id_dict = dict([(b, a) for a, b in enumerate(vocabulary_list)]) #key是word , value是 数字 ，将列表转化为字典
content2idList = lambda content : [word2id_dict[word] for word in content if word in word2id_dict] #一个函数，将文章中的每个字转换成id，返回一个数字的list
train_idlist_list = [content2idList(content) for content in train_content_list] #每个元素代表一行content,是一个数字的list

label2id_dict = dict([(b, a) for a, b in enumerate(set(train_label_list))])
train_labelid_list = [label2id_dict[label] for label in train_label_list]

数据处理，数字化，向量化，建词典

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python对数据的一些处理方法

with open('./cnews/cnews.train.txt', encoding='utf8') as file: label_list = [k.strip() for k in file.readlines()] #去两边的空格 train_label_list = [k.split()[0] for k in label_list] #标签 train_...
复制链接

扫一扫

专栏目录

DedicateToAI CSDN认证博客专家 CSDN认证企业博客

码龄6年

89: 原创

7万+: 周排名

220万+: 总排名

5万+: 访问

: 等级

1321: 积分

5: 粉丝

23: 获赞

19: 评论

31: 收藏

私信

关注

热门文章

分类专栏

知识 15篇
面试 2篇
PAT 35篇
c++ 52篇
数据结构 29篇
c 40篇
nlp 4篇

最新评论

6.S081 Lab util: Unix utilities
CSDN-Ada助手: 非常感谢你的分享！这篇博客介绍了Unix工具，对于想要深入了解Unix操作系统的读者来说非常有帮助。我觉得下一篇可以写一篇介绍Linux系统管理的博客，包括如何使用命令行工具，如何配置网络和安全设置等等。这样的技术文章对其他用户也会非常有帮助。相信会有更多读者期待你的下一篇文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
python模拟登陆豆瓣网
萧生客先生: 我还是报403
总结-慕课网基础课程
只为沵魂牵梦绕(⑉°з°)-♡: 感谢分享干货谢谢
1101 Quick Sort (25 分)- PAT甲级真题-多种算法及分析
kuai-: 方法二分析的很好
PAT甲级 - 1102 Invert a Binary Tree (25 分) 反转二叉树
ctotalk: mark

大家在看

最新文章

目录

目录

分类专栏

知识 15篇
面试 2篇
PAT 35篇
c++ 52篇
数据结构 29篇
c 40篇
nlp 4篇

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。