NLP学习笔记（一）：数据预处理基础

最新推荐文章于 2023-05-26 16:36:08 发布

Q同学的nlp笔记

最新推荐文章于 2023-05-26 16:36:08 发布

阅读量491

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011426236/article/details/115249456

版权

数据预处理类别特征 One-Hot编码文本处理词频统计

关键词由CSDN通过智能技术生成

前言：本系列笔记的学习资源为Shusen Wang老师在Youtube上关于NLP的课程，观看连接为https://www.bilibili.com/video/BV17A411e7qL

数据预处理基础（Data Processing Basics）

处理类别特征（Processing Categorical Features）

在进行机器学习时，我们首先要对数据进行处理。常见的特征有两大类：一种是数值型特征，比如年龄、身高、体重等等，另一种是类别特征，比如国别等。计算机只能处理数值计算，因而在计算机中处理数据时，一定要首先将这些特征转换为数值。

在这里插入图片描述

如上图所示，对于年龄，我们直接用其数值进行存储，对于性别，这是一个二元特征，我们可以用数字0/1来表示，而对于国籍，这是一个典型的类别特征，我们要想办法用数值来表示它。

一个最简单的想法是使用一个标量编号去表示。比如1表示美国，2表示中国，3表示印度……。但这种方式是不太可行的，比如说，我们对标量进行数值计算时，就会有如下情况产生：

1+2=3 ==>
US + China = India?

是否可以说明美国+中国=印度呢？这显然是不正确的。因而使用一个数值标量去代表这样一个多类别的信息是不靠谱的，我们自然就会想到使用向量。

最简单的一种向量表示方法就是One-Hot表示形式，假设一共有197个国家，那么每个国家仅在自己对应编号的位置上数值为1，其他位置数值为0。同时，我们保留编号0作为未知的类别。经过这样的表示，之前的数据就可以被表示成如下形式：
在这里插入图片描述

并且每一行的信息也可以表示为一个199维向量。

处理文本数据（Processing Text Data）

对于文本数据的处理，我们主要遵循以下三步：

Step 1: 分词（Tokenization (Text to Words)）
Step 2: 统计词频（Count Word Frequencies）
Step 3: One-Hot编码（One-Hot Encoding）

首先是分词（Tokenization）。对于分词，这里我们可以简单的理解为将一段连续的字符串切分为一个单词列表。实际上还有很多操作，这里先不详细说明。

在这里插入图片描述
如上图示意。

然后是统计词频。我们需要统计在这段文本中各个单词出现的频次，然后进行降序排列，然后将按顺序给每个单词一个编号/索引。之后，我们可以进行一些处理，比如只保留出现频次最高的前K个单词，去除掉一些频次的单词，这样有以下几点好处：

低频单词通常含有的意义很少（Infrequent words are usually meaningless），比如里面可能会包含一些人名实体，如“Shusen”；还有许多拼写错误导致的错误单词，如“hemlat”
减少词表/向量维度，降低计算量和参数个数。比如英语单词可能有十几万个，但大多数都是很不常用的，我们就可以只保留前1万个出现频次最高的单词

在这里插入图片描述

最后进行One-Hot 编码，将每个单词转换为它对应的编号/索引。

在这里插入图片描述

Q同学的nlp笔记

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
NLP学习笔记（一）：数据预处理基础

前言：本系列笔记的学习资源为Shusen Wang老师在Youtube上关于NLP的课程，观看连接为https://www.bilibili.com/video/BV17A411e7qLNLP学习笔记（一）：数据预处理基础（Data Processing Basics）处理类别特征（Processing Categorical Features）在进行机器学习时，我们首先要对数据进行处理。常见的特征有两大类：一种是数值型特征，比如年龄、身高、体重等等，另一种是类别特征，比如国别等。计算机只能处理数值计
复制链接

扫一扫

Q同学的nlp笔记 CSDN认证博客专家 CSDN认证企业博客

码龄11年

112: 原创

4万+: 周排名

2万+: 总排名

21万+: 访问

: 等级

2535: 积分

535: 粉丝

757: 获赞

126: 评论

1012: 收藏

私信

关注

热门文章

分类专栏

leetcode刷题笔记 5篇
Text-to-SQL 15篇
自然语言处理 41篇
NLP 39篇
Github 1篇
Git 1篇
Pytorch 16篇
论文投稿 2篇
Linux 5篇
VScode 1篇
句法分析 4篇
jupyterlab 1篇
Bert 1篇
Java 1篇
Latex 1篇
MATLAB 5篇
Android
Python 9篇
Gephi 1篇
数据可视化 1篇
VMware
Windows技巧 1篇
云计算 2篇
OpenStack 3篇

最新评论

Phi-2：小型语言模型令人惊人的能力
普通网友: 博主的文章让我对这个主题有了全新的认识，细节描写非常到位，让我感受到了博主的深厚功底。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
高质量数据至关重要：phi-1.5论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
CLIP论文笔记：Learning Transferable Visual Models From Natural Language Supervision
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
高质量数据is all you need：Textbooks Are All You Need论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Huggingface T5模型代码笔记
Q同学的nlp笔记: 你好，可以参考上面的Tokenizer介绍，实际上就是一个T5的Tokenizer。 from transformers import T5ForConditionalGeneration, T5Tokenizer model = T5ForConditionalGeneration.from_pretrained("t5-small") tokenizer = T5Tokenizer.from_pretrained("t5-small")

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。