关于归一化

最新推荐文章于 2024-10-30 13:26:23 发布

zhoujunbuaa

最新推荐文章于 2024-10-30 13:26:23 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhoujunbuaa/article/details/50300581

3 篇文章

订阅专栏

本文介绍了机器学习中常用的归一化方法，包括除以最大值、除以区间和使用sigmoid函数等，并探讨了这些方法在不同场景下的应用，如按用户和按关注点进行归一化的优缺点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

归一化在机器学习中经常避不过的一环。

1、归一化方法：单纯数学层面的归一化（一般是0~1.0，或者0~100，）：

1）除于最大：score = x/ max

2) 除间隔： score = x-min/ (max-min)

3)利用指数性质： score(x) = sigmoid(x), 或者其他类似的函数。

归一化到同一尺度便于分数表示，以及在机器学习输入时一致，便于迭代优化。

2、应用场景：为了展示区分度：

这个本质上和1是一样的，但操作上略有不同，它不要求有最大值。

这里有按用户的归一化，以及按关注点的归一化（行归一，按用户归一；列归一，按关注点归一）

行归一的话：可以描述用户在关注点1 和关注点2之间差别。直接比较关注点1、2之间的频次差距，频次多的则高。

列归一的话：按照列归一的方法，如果本身关注就不多，比如关住点1，如果按行归一是比较吃亏的，其实用户A是对关注点1很感兴趣的相比其他用户，但是呢按用户内部的话比关注点2要低很多，实际上关注点2可能是影视音乐一样大家都有的，而且高频的，实际上分数不应该这么高。

当然按列归一一个问题是：当一个用户在某个关注点有一定增长的趋势（比如最近刚访问了2次），这中热情度不能玲离尽致的体现。