03_分词、One-hot编码

在这里插入图片描述


博文配套视频课程:24小时实现从零到AI人工智能


jieba分词器

“结巴”中文分词:做最好的 Python 中文分词组件,支持 3 种分词模式:精确模式、全模式、搜索引擎模式

可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:

from sklearn.feature_extraction.text import CountVectorizer
import jieba

data = jieba.cut("网易是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量, 网易评论不错哦")
# for temp in data:
#     print(temp)
data = ' '.join(data)
print(data)
vector = CountVectorizer()
res = vector.fit_transform([data])
print(vector.get_feature_names())
print(res.toarray())

one-hot编码

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效,One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1

from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
# 说所有的样本加起来必须保证所有列的特征值都要遍历到
enc.fit([['男', '中国', '足球'],
         ['女', '美国', '篮球'],
         ['男', '日本', '羽毛球'],
         ['女', '中国', '乒乓球']])  # 这里一共有4个数据,3种特征
array = enc.transform([['男', '美国', '乒乓球']]).toarray()  # 这里使用一个新的数据来测试
print(array)  # [[ 1  0  0  1  0  0  0  0  1]]
enc.inverse_transform(array)

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值