数据的归一化处理和标准化处理

最新推荐文章于 2024-08-23 10:00:00 发布

yuxj记录学习

最新推荐文章于 2024-08-23 10:00:00 发布

阅读量2.7k

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41907245/article/details/83542472

版权

学习笔记专栏收录该内容

25 篇文章 8 订阅

订阅专栏

#值的归一化处理
 1) 数据为什么做归一化处理
    
解析： 

假设一个神经元有两个输入分别是x1和x2，权重分别是w1和w2，那么该神经元的信号加权求和为x1w1+x2w2。再假设x1属于[0~1]，x2属于[100~1000]，那么x2远远大于x1，那么x1w1就可以忽略不计，整个加权求和就只由x2w2来决定，小的信号就被淹没了！

  所以需要将x1和x2都要做数据归一化处理避免造成数据结果不准确

在算法中如果各列数据值相差过大，必须要做归一化处理（或标准化处理）

def autoNorm(dataSet):
    minVals = dataSet.min(0)#最大值
    maxVals = dataSet.max(0)#最小值
    ranges = maxVals - minVals#差值
    normDataSet = zeros(shape(dataSet))#生成一个大小与dataSet相同的纬度数组，空的
    m = dataSet.shape[0]#dataSet行数

    #数据归一化公式
    #newValue=(oldValue-min)/(max-min)
    normDataSet = dataSet - tile(minVals, (m,1))
    normDataSet = normDataSet/tile(ranges, (m,1))   #element wise divide
    return normDataSet, ranges, minVals

2）数据标准化处理

from sklearn.preprocessing import StandardScaler
# 标准化数据，保证每个维度的特征数据方差为1，均值为0。使得预测结果不会被某些维度过大的特征值而主导。
ss = StandardScaler()
X_train = ss.fit_transform(self.X_train)
X_test = ss.transform(self.X_test)

yuxj记录学习

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

yuxj记录学习 CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

52万+: 周排名

225万+: 总排名

15万+: 访问

: 等级

1021: 积分

66: 粉丝

120: 获赞

28: 评论

950: 收藏

私信

关注

分类专栏

最新评论

Pyflink教程(四)：datastream_api
aweiblog: pyflink怎么获取kafka里面的key啊，现在只有value值
机器学习-sklearn模型选择和最优参数选择
洒去犹能化碧涛: 单纯的使用交叉验证cross_val_score好像很少，一般都是结合网格搜索一起使用
Pyflink教程(四)：datastream_api
lzj173776: 兄弟我试了一下这个方法好像不行哎儿子你只是定义了一个反序列化的类，实例化和引用都没得
Pyflink教程(四)：datastream_api
lzj173776: 谢谢兄弟我回去试一下
Pyflink教程(四)：datastream_api
yuxj记录学习: 找了个示例,参考下 from pyflink.common.serialization import DeserializationSchema from pyflink.common.typeinfo import Types from pyflink.datastream import StreamExecutionEnvironment from pyflink.table import StreamTableEnvironment class CustomDeserializationSchema(DeserializationSchema): def deserialize(self, message): # 在此处执行您的自定义反序列化逻辑 # 返回一个 Python 对象，表示反序列化后的数据 return message.decode('utf-8') def get_produced_type(self): # 返回反序列化后的数据类型 return Types.STRING() def main(): env = StreamExecutionEnvironment.get_execution_environment() t_env = StreamTableEnvironment.create(env) # 使用自定义反序列化器 source_ddl = f""" """ # 注册表 t_env.execute_sql(source_ddl) # 查询和处理数据 result = t_env.sql_query("SELECT message FROM MySource") # 在此处可以继续处理查询结果 # 执行任务 t_env.execute("custom_deserialization_example") if __name__ == '__main__': main()

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。