文本预处理——理论

12 篇文章 5 订阅 ¥9.90 ¥99.00
本文详细介绍了文本预处理的重要性,包括分词(如jieba的精确、全和搜索引擎模式)、命名实体识别(NER)和词性标注(POS),并阐述了它们在自然语言处理中的作用。通过这些步骤,可以为深度学习和人工智能模型提供高质量的输入数据。
摘要由CSDN通过智能技术生成

目录

0 概述

1 文本处理的基本方法

1.1 分词(jieba)

1.2 命名实体识别

1.3 词性标注


0 概述

  • 文本预处理及其作用
    • 文本语料在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,如:将文本转化成模型需要的张量,规范张量的尺寸等,而且科学的文本预处理环节还将有效指导模型超参数的选择,提升模型的评估指标。
  • 文本预处理中包含的主要环节
    • 文本处理的基本方法
    • 文本张量的表示方法
    • 文本语料的数据分析
    • 文本特征处理
    • 数据增强方法
  • 文本处理的基本方法
    • 分词
    • 词性标注
    • 命名实体识别
  • 文本张量表示方法
    • one-hot编码
    • Word2Vec
    • Word Embedding
  • 文本语料的数据分析
    • 标签数量分布
    • 句子长度分布
    • 词频统计与关键词词云
  • 文本特征处理
    • 添加n-gram特征
    • 文本长度规范
  • 数据增强方法
    • 回译数据增强法

1 文本处理的基本方法<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

OR_0295

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值