本文作者:杨慧琳
文字编辑:李钊颖
技术总编:高金凤
重磅!!!爬虫俱乐部将于 2019年10月2日至10月5日在湖北武汉举行 Python编程技术培训,本次培训采用理论与案例相结合的方式,旨在帮助零基础学员轻松入门Python,由浅入深学习和掌握Python编程技术,尤其是爬虫技 术和文本分析技术。 该培训目前在火热招生中,点击《爬虫俱乐部2019十一Python编程技术培训报名啦!》或点击文末阅读原文,了解培训详细信息,抓紧时间报名吧! 在进行数据分析或模型估计时,经常需要对数据进行标准化处理(normalization)。 例如,在一个数据集中变量A的取值区间为[0,10],变量B的取值区间为[100,1000]。若直接采用原始数据进行分析,由于变量B量纲更大,这样可能造成模型估计偏误。 借助数据标准化处理,可以将原始数据转换为无量纲、无数量级差异的标准化数值。通过将数据按照一定比例缩放,使变量取值落于一个特定区间或服从特定分布,消除了量纲、变量自身变异和数值大小的影响,从而便于对不同变量和数据进行综合分析、比较。 在介绍Stata软件的数据标准化操作之前,首先了解两种常用的数据标准化方法。 (一) 数据标准化方法1、离差标准化
离差标准化是令变量的观测值减去该变量的最小值,然后除以该变量的极差,把数值标准化至Z分数,即: 经过离差标准化之后,变量的正、负数值均转化为正向数值,全部取值将处于[0,1]的范围内,相当于将一组数据按照大小排序压缩到