03_分词、One-hot编码

最新推荐文章于 2023-07-11 18:20:10 发布

lsqzedu

最新推荐文章于 2023-07-11 18:20:10 发布

阅读量857

点赞数

分类专栏： Python 机器学习文章标签： jieba one-hot

本文链接：https://blog.csdn.net/lsqzedu/article/details/99744719

版权

Python 机器学习专栏收录该内容

15 篇文章 8 订阅

订阅专栏

在这里插入图片描述

文章目录

jieba分词器
one-hot编码

博文配套视频课程：24小时实现从零到AI人工智能

jieba分词器

“结巴”中文分词：做最好的 Python 中文分词组件，支持 3 种分词模式：精确模式、全模式、搜索引擎模式

可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词，两者所返回的结构都是一个可迭代的 generator，可使用 for 循环来获得分词后得到的每一个词语（unicode），或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中：

from sklearn.feature_extraction.text import CountVectorizer
import jieba

data = jieba.cut("网易是中国领先的互联网技术公司，为用户提供免费邮箱、游戏、搜索引擎服务，开设新闻、娱乐、体育等30多个内容频道，及博客、视频、论坛等互动交流，网聚人的力量, 网易评论不错哦")
# for temp in data:
#     print(temp)
data = ' '.join(data)
print(data)
vector = CountVectorizer()
res = vector.fit_transform([data])
print(vector.get_feature_names())
print(res.toarray())

one-hot编码

One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效，One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1

from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
# 说所有的样本加起来必须保证所有列的特征值都要遍历到
enc.fit([['男', '中国', '足球'],
         ['女', '美国', '篮球'],
         ['男', '日本', '羽毛球'],
         ['女', '中国', '乒乓球']])  # 这里一共有4个数据，3种特征
array = enc.transform([['男', '美国', '乒乓球']]).toarray()  # 这里使用一个新的数据来测试
print(array)  # [[ 1  0  0  1  0  0  0  0  1]]
enc.inverse_transform(array)

在这里插入图片描述

lsqzedu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
03_分词、One-hot编码

jieba分词器“结巴”中文分词：做最好的 Python 中文分词组件，支持 3 种分词模式：精确模式、全模式、搜索引擎模式可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词，两者所返回的结构都是一个可迭代的 generator，可使用 for 循环来获得分词后得到的每一个词语（unicode），或者直接使用 jieba.lcut 以及 jieba.l...
复制链接

扫一扫

专栏目录