7.pytorch自然语言处理-循环神经网络与分词

一、基础知识

1、tokenization分词

分词,分出的每一个词语叫做token

*清华大学API:THULAC;或者直接用jieba

可以切分为词语,或者完全分成一个一个字

2、N-gram

表示把连续的N个词语作为特征,帮助获取词语特征的方法,感觉类似于卷积神经网络中的池化操作,将特征选择放大

import jieba
text="分词 >_<,英文tokenization,也叫word segmentation,是一种操作,它按照特定需求,把文本切分成一个字符串序列(其元素一般称为token,或者叫词语)。"
cuted=jieba.lcut(text)#cut结果是一个生成器,lcut结果直接是一个列表
[cuted[i:i+2] for i in range(len(cuted)-1)]#这里将连续的两个词语作为特征
#cuted[i:i+2],len(cuted)-1是连续两个词语。N=3就-2

输出:

[['分词', ' '],
 [' ', '>'],
 ['>', '_'],
 ['_', '<'],
 ['<', ','],
 [',', '英文'],
 ['英文', 'tokenization'],
 ['tokenization', ','],
 [',', 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值