java 归一化_Java之Normalizer(归一化)

最新推荐文章于 2024-10-02 23:43:12 发布

洛胭

最新推荐文章于 2024-10-02 23:43:12 发布

阅读量1.2k

点赞数

文章标签： java 归一化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_26854555/article/details/114059088

版权

归一化是数据预处理的重要步骤，有助于保持样本间距和平等对待特征向量。Java中的Normalizer类主要用于字符串编码转换，解决Unicode字符的不同表示问题。通过Normalize方法和不同Unicode规范化类型，确保相同字符的正确匹配。

摘要由CSDN通过智能技术生成

什么是归一化？

归一化的概念在人工智能领域会普通看到，比如使用TensorFlow框架编码时，就会出现数据归一化的步骤或函数。

简单来说，归一化就是对一组数据进行转换，使这组数据具备相同的格式或特性。举例来说：一组任意的整数数组：1，2，400，5000，如果每个数都除以这组元素中的最大值的话(这里是5000)，则这个数组元素的值位于0-1之间，满足数学上概率的值的区间。

在AI中，对培训数据进行归一化的好处有：

１、保持合适的样本间距

以上面的示例来说，　１和5000相差甚远，如果以坐标图绘制，则相差的太远，归一化之后就好多了。

2、平等对待多个特征向量。

有个例子示房子面积和房子的数量对房价的影响。面积的体量明显大于房子的数目，面积的因素很容易掩盖数量的影响。所以，归一化之后，更容易找到问题的解。

归一化的数学方法

归一化常见的数学方法有：

线性归一化

也称作(0,1)标准化线性归一化， Min-Max标准化和离差标准化。是对原始数据进行线性变换，变换后的结果值在0到1之间。

公式是： X = (x-Min)/(Max-Min)

均值标准差归一化

使用均值和标准差进行数据的标准化。转换后的数据符合正态分布，即均值为0，标准差为1。

公式是：X= x-均值/标准差

Sigmoid函数归一化

Java归一化类Normalizer

JDK中提供了一个归一化类：java.text.Normalizer ，和传统的归一化有点区别，这个类主要是对字符串编码的转换。从该类的包名也可以看出，这个类处理的是文本的数据。

为什么会有编码的问题呢？这个还要从计算机的原理说起，计算机中使用1表示高电平，使用0表示低电平，简单点理解就是电源要么开，要么关。

ASCII码应该是最早熟悉的字符编码了，(American Standard Code for Information Interchange): 美国信息交换标准代码，其实用的是8个比特位(1)个字节来表示拉丁字母以及一些特殊字符，但是8个比特位最多能有256种表示方式(比如0100 0001 表示大写的A，换算成十进制是65，十六进制表示是0x41)，但是汉字等有成千上百个，于是出现了 GB2312、GBK、Unicode等编码。

Unicode(统一码、万国码、单一码)，是业界统一的标准，该标准更多两个字节来表示字符(最多可以表示65536个字符)。但这个标准又有不同的版本，比如UTF-8、UTF-16和UTF-32。同一个字符可能出现不同的编码方式。

比如 á (小写a上面有一个第四声)，就有两种编码方式：

编码方式1：00C1 ，一个字符表示

编码方式2：0041+0301 ，两个字符表示

虽然同是á ，但是在Java中进行字符串匹配是不相同的，所以需要进行归一化处理。示例代码如下：

public class NormalizerTest {

// á

@Test

public void base() {

// 归一化前

String str1 = "\u00C1";

System.out.println(str1);

String str2 = "\u0041" + "\u0301";

System.out.println(str2);

// Assert.assertTrue(str1.equals(str2)); //失败

// 归一化后

str1 = Normalizer.normalize(str1, Normalizer.Form.NFC);

str2 = Normalizer.normalize(str2, Normalizer.Form.NFC);

System.out.println(str1);

System.out.println(str2);

Assert.assertTrue(str1.equals(str2)); // 成功

}

}

normalize()方法有两个参数：

第一个参数是需要归一化的字符串

第二个参数是Unicode规范化的类型，该类型参数有四种：

NFD 典型分解

NFC 兼容性分解

NFKD 规范分解，规范组成

NFKC 兼容性分解，规范组成

NF 是normalization-type的简写。

类型细节参考：

http://www.unicode.org/reports/tr15/tr15-23.html

Java的Normalizer类的说明参考：

https://docs.oracle.com/javase/7/docs/api/java/text/Normalizer.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。