中心化和标准化处理

  • 目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据。
  • 计算过程由下式表示:x^{'}=\frac{x-\mu }{\sigma }
  • 下面解释一下为什么需要使用这些数据预处理步骤。
在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价 y的因素有房子面积 x_{1}、卧室数量 x_{2}等,我们得到的样本数据就是 (x_{1},x_{2})这样一些样本点,这里的 x_{1}x_{2}又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征 具有相同的尺度(Scale)

preview

  • 比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。
  • 另外,对于主成分分析(PCA)问题,也需要对数据进行中心化和标准化等预处理步骤
给题主推荐一个问答论坛cross validated,上面可以找到很多数据分析,机器学习相关领域的问答。



作者:Spark
链接:https://www.zhihu.com/question/37069477/answer/132387124
来源:知乎

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。



  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
通用说明 1. 适用机构:在境内依法设立的银行机构,包括政策性银行、大型商业银行、股份制商业银行、城市商业银行、民营银行、农村信用社、农村商业银行、农村合作银行、村镇银行、外资银行、中德住房储蓄银行。 2. 数据结构:《中国银保监会银行业金融机构监管数据标准化规范(2019版)》(以下简称《规范》)共包括十个监管主题域、66张数据表、1852个数据项。数据表报送范围及数据项在《规范》中均有说明。 3. 数据来源:银行机构根据《规范》要求报送除理财业务域以外的九个监管主题域,从行内相关信息系统中获取数据,其中信息系统包括但不限于以下系统:核心业务系统、信贷系统、国结系统、票据系统、人力资源等。理财登记中心根据《规范》要求,向银保监会报送采集范围内的数据。各报数单位现有信息系统无法满足数据填报需求时,应及时采取措施,完善信息系统建设,并制定具体工作方案计划,以逐步达到数据报送要求。 4. 数据采集:银行机构首次按本《规范》集中报送数据时,公共信息、客户信息、信贷管理等相关数据表报送采集时间段内存续数据,账户类及交易明细类数据报送时间段内的全量数据。银行机构持续报数时,公共信息、客户信息相关数据表报送采集时间段内存续全量数据。理财登记中心按照理财业务相关数据表的采集要求报送数据。报送账户、借据全量数据时,采集时间段内结清、未结清,销户、未销户都应上报。 5.数据校验:银行机构按照数据检核规则报送数据。首次集中报送时,银行机构按照数据检核规则完成对报送数据的整改工作。持续报送时,银行机构应在一个报送周期内完成对不符合校验规则数据的整改和入库。 6.数据分层存储:所有采集数据分层存储在银保监会(或其派出机构)和报数机构。每批次数据采集时,报数机构将全部数据存至本机构存储平台,并按照《规范》要求,将其中部分数据报送至银保监会(或其派出机构)。存至本机构的数据要单独存放、隔离管理,并建立安全可靠的传输通道和保障机制,支撑银保监会数据调阅与应用。存储平台中的数据,未经银保监会许可,不得导出、拷贝和删改。 7. 关联数据项:不同表存在数据项名称、填报内容定义相同的数据项时,应保证所填数据在这些表格中一致。例如:不同表的客户统一编号、工号、合同号应保持表间一致。“备注”栏所列“关联数据项”意为表之间数据项存在相关关系,用于指导银行机构填报存在相关关系的数据及监管查找关联数据之用。 8. 银行自定义数据项:由于银行机构业务和信息系统的差异性,规范中一些数据数据项填报要求注明由银行自定义,此类数据数据项报送应注意使用中文字典或中文描述,避免使用英文或代码表示。对于《规范》中已经列出数据项值的数据项,严格依照标准中已有的分类上报。 9. 敏感信息处理:对于客户隐私均在备注栏内做了注解,分为“隐私,暂不取”、“隐私,银行机构变形”两种情况。对于“隐私,暂不取”数据项,保留在银行机构,作为可追索数据项;对于“隐私,银行机构变形”数据项,按照以下规则进行变形: (1)个人件号码: 若件号码中有英文字母,应先统一转换成大写英文字母; 变形后的件号码(38字节) = 件号码前6字节(6个英文字符/数字,或2个汉字,或1个汉字+3个英文字符/数字) + MD5(件号码全文UTF-8编码)(32字符,英文按小写输出),若件号码为空,则按空值报送。 例: 18位公民身份号码:33010219801212031X,变形后: 33010268162287691742b48cbc3ae8b70650a7 15位公民身份号码:330102801212031,变形后: 330102b88ce0d0e99298c224409414db399920 军官证/武警部队警官证:参字第1234567号,变形后: 参字3d0b11c17f6130dbd8502a416a7935ef 护照:E12345678,变形后:E12345d02f3cf86bb402a904f98df6373eb1ac (2)包含个人件号码的客户统一编号: 若件号码中有英文字母,应先统一转换成大写英文字母; 将件号码部分用件号码全文UTF-8编码的MD5杂凑值替换,其余部分不变。 (3)客户名称和所有对方户名信息: 三个汉字以内(包含三个汉字)的名称,做有限暴露方式的脱敏处理,只保留最后一个字,其余长度的名称不变形。银行机构员工和业务办理人员、自然人股东、单位负责人姓名不变形。 10. 数据约束:数据结构备注中PK为监管部门作为唯一性约束的参考条件,含有多个PK的,表示联合主键的参考,并不作为主外键唯一性约束的条件,可根据数据实际使用用途情况作出调整。 11. 数据项报送:《规范》中所有数据项均作为必填项对待,确实无法对应的数据项应报监管部门备案,并参照以下处理:①未开办此类业务,则无须报送;②已经开办此类业务,但需要一次性录入索引类数据,应当在实施过程中另行建表维护或对源系统进行技术改造。 12. 数据格式:报送数据若为字符串,则字符串中不能包含\n、\r、双引号等控制字符和转义字符,且字符串首尾不能包含空格。报送数据若为浮点数,则必须为123.789形式,前后不可补0、补+号。报送数据若为整数,则必须为123456形式,数值前不可补0、补+号,数值后不能带小数点。 13. 拆分原则:明确采集分支机构数据的银行机构,由总行按照一级分行进行数据拆分,并由一级分行报送属地银监局。若多个一级分行归属同一银监局管辖区域,则应由多个一级分行分别独立报送。数据拆分应当以满足交易描述的完整性为基本原则,账户归属地、业务发生地不在一个一级分行的,归属地、发生地应当分别报送。 14. 标准引用:下列标准中的条款通过本规范的引用而成为本规范的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范,然而,鼓励各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本规范。 银保监会《金融机构代码编码规则》 ISO/IEC 10646 Information Technology -- Universal Coded Character Set (UCS) GB 32100-2015 法人和其他组织统一社会信用代码编码规则 GB 11714-1997 全国组织机构代码编制规则 GB 11643-1999 公民身份号码 GB/T 2261-2003 个人基本信息分类与代码 GB/T 4754 国民经济行业分类 GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法(ISO 8601:2000,IDT) GB/T 12406-2008 表示货币和资金的代码(ISO 4217:2001,IDT) GB/T 18142-2000 信息技术 数据元素值格式记法(ISO/IEC 14957:1996,IDT) GB/T 4658-2006 学历代码 GB/T 8561-2001 专业技术职务代码 GB/T 2659-2000 世界各国和地区名称代码
一、中国数字网络视频监控的现状与发展 中国监控行业在二十世纪九十年代末,伴随着计算机技术、图像处理技术和网络技术的发展普及,兴起了数字网络视频监控系统的浪潮。这股浪潮使自八十年代末期成长起来的中国安防市场发生了深刻的变,中国的从事网络视频监控企业第一次站在了与国外公司几乎相同的起跑线上,也为中国新兴的专业网络视频监控公司和企业带来了前所未有的挑战和机遇。 现在一般所说的数字网络视频监控系统,是指监控系统的输入、控制、显示、存储这四大部分均采用数字图像压缩处理技术。它的另一特点是经过数字处理的图像,可利用现有的网络技术,将现场图像传输到远端监控中心。可以说数字网络视频监控系统的两大技术核心就是图像压缩存储技术和网络传输技术,围绕这两种技术在网络视频监控系统中的应用,就是数字网络视频监控发展的历程。 数字网络视频监控产品在中国的发展过程 回顾中国国内网络视频监控系统的数字发展过程,期间划分下述几个阶段: 第一阶段为九十年代前期:当时的网络视频监控系统一般采用国外的进口矩阵控制主机,为了适应当时计算机普及的需求,视频监控公司纷纷开发利用计算机对矩阵主机进行系统控制的软件,实现电脑对视频监控系统图像切换、音频切换、报警处理、图像抓拍等多媒体控制。此时的计算机多媒体监控实际上仅仅作为视频监控系统的一个辅助控制键盘使用,可以说是中国数字网络视频监控开始的雏形。 中国的视频监控产品国产进程也是在此时期起步,众多的网络视频监控公司开始生产或仿制与国外公司兼容的矩阵主机、解码器、多媒体控制系统、云台外设等监控产品。其特点是以传统电子制造业为基础的小规模的产业。 第二阶段是九十年代中、后期:在这一时期是图像处理技术、计算机技术、网络技术飞速发展的时期。中国国内公司在完成矩阵主机、解码器、多媒体控制系统、云台等外部设备产业生产后,发现台湾地区和国外监控公司开始将他们基于传统电子制造业的监控生产线转移到中国进行生产,这些产品包括摄像机、监视器、图像处理器、磁带录像机、报警探测器、报警主机等监控产品,上述发展过程只是九十年代国外电子产品制造商大规模进入中国市场的一个普遍现象,它完成了大多数监控产品国产过程。中国国内公司可以以更低的价格购买到中国制造的松下的摄像机、三洋的录像机、迪信的报警探测器,促进了监控系统的在中国的普及应用。 但是,国外监控产品制造商大量进入中国,短期内限制了中国监控企业由小规模电子产品企业向大规模生产企业发展的进程,并迫使他们面临更大的竞争压力。中国国内企业开始把眼光投向一个新的领域,利用图像压缩技术和网络技术开发新的监控产品,其产品特点是利用成熟的计算机技术、图像压缩存储技术和网络技术,利用计算机产业标准化生产的便利条件,无须投入大量开发、研制和模具生产资金,便可快速生产制造产品并投放市场。这种生产模式完全有别于传统的电子加工制造业,成为中国国内监控企业难得的市场机遇。 这一阶段,国外已经开始数字监控进程,最先被引进国内的数字监控产品是美国和以色列生产的电话线传输和网络传输产品,图像压缩标准采用MJPEG,系统具有简单的数字监控与网络监控的许多功能,并且还有一项令整个监控业感到新奇的功能——数字录像功能。由于数字监控设备刚刚引入监控行业,其极高的高科技附加值立刻吸引了众多监控公司投入其中,纷纷开发出基于计算机结构的数字监控主机,该系统将矩阵切换器,图像分割器、硬盘录像机集成在一台计算机平台上,形成了具有中国特色的监控主机产品,并发展成产业趋势。 由于受到价格的影响以及硬盘容量的限制,这一时期发展的数字监控系统和数字录像系统还不能够在与模拟设备的竞争中取得优势。 第三个阶段是2000年以后:随着图像压缩技术的进步,特别是MPEG-I、MPEG-II图像压缩芯片的大量推广应用,2000年至今,数字监控产品进入了一个快速发展时期,产品也由原来的数字监控录像主机发展到网络摄像机、网络传输设备、电话传输设备、专业数字硬盘录像机等多种产品。 由于中国监控市场的特殊性,国外的数字监控产品这期间虽然频繁亮相中国市场,但确没能象他们的模拟产品一样大举进入中国市场,这些外国的产品为中国市场带来了数字监控、网络监控的理念和技术发展方向。而国产的数字监控产品,伴随着中国计算机市场的迅猛发展,开始引领中国的数字监控市场的潮流,他们的产品技术上与国外几乎相同(使用几乎相同的计算机和芯片),功能上更能体现中国安防的特殊需求,价格上比国外品牌更具竞争优势。 2000年以后,伴随着中国国内监控系统数字、网络需求日益增大,数字硬盘录像设备开始取代传统模拟录像设备,数字监控产品市场份额的不断增长,使许多传统的IT企业、网络企业、家电企业纷纷看好这一市场,投入资金、人力、开发数字监控产品,数字监控市

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值