4.文本预处理-pytorch与自然语言处理

还我的鸭脖！

已于 2022-04-15 10:27:48 修改

阅读量1.1k

点赞数

分类专栏： pytorch与自然语言处理文章标签： python

于 2022-04-14 14:41:18 首次发布

本文链接：https://blog.csdn.net/qq_42035862/article/details/124105378

版权

课程链接：Python人工智能20个小时玩转NLP自然语言处理【黑马程序员】_哔哩哔哩_bilibili

？？？？？全是报错，难受死了

文本预处理主要包括的内容：

文本处理的基本方法-分词词性标注命名实体识别
文本张量的表示方法-one-hot word2vec WordEmbedding
文本预料的数据分析-标签数量分布句子长度分布词频统计与关键词云
文本特征处理-添加n-gram特征文本长度规范
数据增强方法-回译数据增强方法

一、jieba

*精确模式分词，切分句子来适用于文本分析（中文繁体分词，jieba也支持！）

import jieba
content="工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
jieba.cut(content,cut_all=False)#默认是False，表示精确分词
#注意这里返回的是一个生成器的对象，这里如果要看到结果需要使用jieba.lcut()
#精确模式就是每个词都按照我们语言理解的匹配方式匹配
#全模式就是扫描句子中每一个词，都列出来，但是不能消除歧义
jieba.lcut(conten

最低0.47元/天解锁文章

还我的鸭脖！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
4.文本预处理-pytorch与自然语言处理

课程链接：Python人工智能20个小时玩转NLP自然语言处理【黑马程序员】_哔哩哔哩_bilibili文本预处理主要包括的内容：文本处理的基本方法-分词词性标注命名实体识别文本张量的表示方法-one-hot word2vec WordEmbedding 文本预料的数据分析-标签数量分布句子长度分布词频统计与关键词云文本特征处理-添加n-gram特征文本长度规范数据增强方法-回译数据增强方法一、jieba*精确模式分词，切分句子来适用于文本分析
复制链接

扫一扫