自然语言处理——英文文本预处理

haven-852

已于 2024-07-10 19:15:20 修改

阅读量1k

点赞数 18

分类专栏： AIGC 文章标签：自然语言处理人工智能

于 2024-06-26 20:13:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40500099/article/details/139958932

版权

AIGC 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

高质量数据的重要性

数据的质量直接影响模型的性能和准确性。高质量的数据可以显著提升模型的学习效果，帮助模型更准确地识别模式、进行预测和决策。具体原因包括以下几点：

噪音减少：高质量的数据经过清理，减少了无关或错误信息，这可以降低模型学习过程中的干扰，从而提高模型的准确性。
一致性：一致的数据格式和规范化处理使模型能够更有效地学习特征，避免因数据格式不一致带来的混淆和误差。
代表性：高质量的数据集通常具有良好的代表性，能够覆盖更多的实际场景和情况，使模型在训练过程中接触到更多的可能性，提高其泛化能力。
复杂性处理：高质量的数据能帮助模型更好地处理数据的复杂性，通过正确的标签和特征，可以引导模型识别和学习数据中的复杂模式。

数据标注是将原始数据进⾏加⼯处理，⽐如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。国内数据标注⼚商，⼴义称之为基础数据服务提供商，通常需要完成数据集结构/流程设计、数据处理、数据质检等⼯作，为下游客⼾提供通⽤数据集、定制化服务、数据闭环⼯具链等。这也是本次AIGC数据标注全景报告的研究对象。

在这里插入图片描述

数据标注中的⼆⼋定律：通常在一个AI项目中，数据准备工作需要80%时长，模型训练和部署仅占20% 。

在这里插入图片描述

本文主要介绍再自然语言处理中的英文文本处理。
在这里插入图片描述

英文文本相关技术

文本预处理是自然语言处理 (NLP) 中的一个关键步骤，旨在清理和规范化原始文本数据，以便后续的分析和建模。以下是常见的文本预处理步骤：

英文文本预处理

在这里插入图片描述

文本清理 (Text Cleaning)：

去除标点符号 (Removing Punctuation)：删除文本中的标点符号。
去除数字 (Removing Numbers)：删除或替换文本中的数字。
去除多余的空格 (Removing Extra Whitespace)：规范化空格，去除多余的空格。
去除特殊字符 (Removing Special Characters)：删除或替换文本中的特殊字符。

转换为小写 (Lowercasing)：

将所有文本转换为小写，以确保一致性。

分词 (Tokenization)：

将文本分割成单个单词或标记（tokens）。

去除停用词 (Removing Stopwords)：

删除常见的无意义词（如“the”、“is”、“and”）以减少噪音。

词干提取 (Stemming)：

将单词还原为词干形式，如“running”变为“run”。

词形还原 (Lemmatization)：

将单词还原为其基本形式（词元），如“better”还原为“good”。

拼写纠正 (Spelling Correction)：

纠正文本中的拼写错误。

文本标准化 (Text Normalization)：

处理缩写和俚语，将其转换为标准形式。

N-gram 生成 (N-gram Generation)：

创建连续的 N 个单词的组合，以捕捉上下文信息。

去除低频词 (Removing Rare Words)：

删除出现频率很低的单词，以减少噪音和数据维度。

去除 HTML 标签 (Removing HTML Tags)：

在处理网页文本时，去除 HTML 标签。

表情符号处理 (Handling Emojis)：

识别和处理表情符号，将其转换为文本描述或删除。

重复字符处理 (Handling Repeated Characters)：

处理文本中重复的字符，如将“loooove”转换为“love”。

自定义词典替换 (Custom Dictionary Replacement)：

使用自定义词典将特定短语或俚语替换为标准形式。

语言检测 (Language Detection)：

检测并处理多语言文本，选择性地处理特定语言的文本内容。

归一化数字 (Normalization of Numbers)：

统一处理数字表示形式，如将“twenty”转换为“20”。

正则表达式替换 (Regular Expression Replacement)：

使用正则表达式进行复杂的文本替换或模式匹配。

其他文本相关技术

主题建模 (Topic Modeling)：

使用主题建模技术（如 LDA）提取文本中的主题，以简化文本表示。

特征提取 (Feature Extraction)：

使用 TF-IDF、词嵌入（如 Word2Vec、GloVe）或句子嵌入（如 BERT）等技术将文本转换为数值特征向量。

这些步骤的具体选择和顺序可能会根据具体的任务和数据集而有所不同，但上述步骤提供了一个全面的文本预处理流程概览。

文本拆分 (Text Segmentation)：

尤其是在处理中文文本时，将连续的汉字分割成独立的词语。

实体识别 (Named Entity Recognition, NER)：

识别文本中的专有名词，如人名、地名、机构名等。

情感分析 (Sentiment Analysis)：

预处理过程中标记文本的情感极性，如积极、消极、中性。

话题过滤 (Topic Filtering)：

只保留或删除特定话题相关的文本片段。

特定领域术语处理 (Domain-Specific Term Handling)：

处理特定领域的术语和缩写，确保其正确解析和分析。

处理否定 (Handling Negations)：

在情感分析中特别重要，标记或处理否定词以正确捕捉其影响。

上下文扩展 (Context Expansion)：

使用上下文信息扩展或解释单词的含义，增强文本理解。

这些步骤可以根据具体的应用场景和文本数据的特点进行选择和组合，以实现最佳的文本预处理效果。

希望各位能不吝啬轻轻的点赞，这将是我后续更新博客的动力。

关注

18
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
自然语言处理——英文文本预处理

针对LLM中最需要的数据，在刚开始进行LLM训练的时候，高质量的数据是非常重要的，但是在获取的数据可能不是人们需要的数据，因此，为了加快数据的获取，本文在这里进行相关文本预处理内容的获取。
复制链接

扫一扫

专栏目录

haven-852 CSDN认证博客专家 CSDN认证企业博客

码龄7年

62: 原创

4万+: 周排名

3万+: 总排名

4万+: 访问

: 等级

881: 积分

1182: 粉丝

225: 获赞

7: 评论

248: 收藏

私信

关注

热门文章

分类专栏

AIGC 3篇
数据库 5篇
与神对话 2篇
其他 3篇
Linux 10篇
面试 2篇
算法 1篇
leetcode 7篇
设计模式 3篇
论文研读 6篇
区块链 4篇
Spring 2篇
maven 11篇
团队开发 4篇
MPC 3篇

最新评论

Linux 内核简介
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
【区块链】区块链技术指南
haven-852: 对于你的问题，我们需要考虑到现实和理论之间的联系。众所周知，区块链是依靠着hash算法将前后的区块连接起来，区块上存储着交易数据，而这些区块在现实生活里面都是一个一个上链的用户（具有一定的权限）。在联盟链是各个组织构建的区块链，私有链就是单个组织，那么采用简单的集中式或分布式节点管理方式。例如，可以由网络管理员或特定节点来确定交易的有效性和记账权。因此，可以不选择拥有共识算法和激励机制。至于谁来作为记账权，那么就可以看权限节点分配到某个节点拥有这个权力。简单来说就是，在一个公司里面，一个高权位置的人把一定的权力给到某个人身上。对于私有链如果真的需要共识算法的话，可以选择拜占庭容错算法（Byzantine Fault Tolerance, BFT）、Raft算法和Proof of Authority（PoA）。
【区块链】区块链技术指南
gongli。。。: 大佬，麻烦请教几个问题：在联盟链和私有链中，可不可以不要共识层和激励层（不要共识算法和激励机制）？在公有链中，激励机制为了鼓励记账、共识算法为了争夺唯一记账权，但是在联盟链和私有链中，各节点的目标一致，还需要激励机制和共识算法的存在吗？如果联盟链和私有链中不需要激励机制和共识算法，那如何确定记账权？（可不可以谁交易谁记账）？如果私有链中需要共识算法，哪种算法比较合适呢？
【论文研读】-DiPETrans: A Framework for Distributed Parallel Execution of Transactions of Blocks in BLC
haven-852: 这个在本论文中并没有详细说明静态分析如何进行的，但是在区块链智能合约并行执行模型的综述论文中对这静态分析进行了详细的阐述。静态分析要求编写智能合约的开发者在编写完后对本合约，也就是事务中所涉及的访问变量进行提前抽取，也就是说，静态分析是在开发的时候就进行了提取，所以这篇论文并没有说明这个比较尴尬的问题。建议了解一下动态分析的过程，这个方法虽然现在能落地的不多，但是方法还是比较诚实的。
【论文研读】-DiPETrans: A Framework for Distributed Parallel Execution of Transactions of Blocks in BLC
rtergtgdggg: 同学您好，请教您个问题，该文章中说事务的shard是静态分析得到的，那么静态分析需要执行事务马，还是在代码中加上一些标志？疑问静态分析怎么做的谢谢您！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

haven-852 你的鼓励是对我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。