对corpus数据处理的认识

最新推荐文章于 2024-08-15 09:18:22 发布

csdn_LYY

最新推荐文章于 2024-08-15 09:18:22 发布

阅读量2.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CSDN_LYY/article/details/87914564

版权

本文介绍了如何使用count vectorizer函数处理corpus数据，探讨了corpus数据处理的基本概念。

摘要由CSDN通过智能技术生成

下面是代码：

from sklearn import model_selection, preprocessing, linear_model, naive_bayes, metrics, svm
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn import decomposition, ensemble

import pandas, xgboost, numpy, textblob, string
from keras.preprocessing import text, sequence
from keras import layers, models, optimizers

# load the dataset
data = open('data/corpus').read()
labels, texts = [], []
for i, line in enumerate(data.split("\n")):
    content = line.split()
    labels.append(content[0])
    texts.append(" ".join(content[1:]))

# create a dataframe using texts and lables
trainDF = pandas.DataFrame()
trainDF['text'] = texts
trainDF['label'] = labels

# split the dataset into training and validation datasets 
train_x, valid_x, train_y, valid_y = model_selection.train_test_split(trainDF['text'], trainDF['label'])

# label encode the ta

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

csdn_LYY CSDN认证博客专家 CSDN认证企业博客

码龄10年

312: 原创

4万+: 周排名

102万+: 总排名

72万+: 访问

: 等级

7724: 积分

37: 粉丝

238: 获赞

66: 评论

618: 收藏

私信

关注

热门文章

分类专栏

工具 6篇
leetcode 1篇
经验 2篇
无线通信 2篇
人工智能 1篇
mathtype 1篇
blog 3篇
C++ 105篇
汇编 17篇
随想 5篇
数据结构 4篇
算法 3篇
linux 24篇
database 44篇
计算机组成原理
计算机网络 1篇
操作系统 10篇
Hadoop
Hbase 1篇
Docker 8篇
机器学习 69篇
WEKA 3篇
TeX 18篇
LabVIEW
matlab 19篇

最新评论

latex希腊字母斜体变正体
baidu_34343905: 牛，一句话解决问题，别的攻略还要引入宏包甚至还要收费才能看教程
概率和似然，终于懂了
天心481: 求似然的目的就是估计参数θ，如果这个θ就是真实的θ，那么似然和概率一定是相等的
谈google搜索引擎的使用
十三月的天: 所以谷歌搜索引擎怎么用啊
texstudio出现Could not start the command: pdflatex.exe -synctex=1 -interaction=nonstopmode解决方法
weixin_50519490: 还是打不开，右侧是黑屏，显示pdf格式不正确
[科普]原码，反码，补码由来
做而论道_CS: 实际上，任意负数（－X）的补码，都是：0 － X。你用二进制简单算一下，立刻就能得到结果。（－128 的 8 位补码，也就是这样求出来的。）同理，任意正数（＋X）的补码，也都是：0 ＋ X。这还用算？ 0 ＋ X，不就是 X 吗？即，正数的补码，就是 X 本身！求补码，就是这么简单。符号位原码反码取反加一符号位不变模... 这些，不过是 “拿来鞋拔当如意” 而已。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。