Python
bearx...
攻城狮
展开
-
数据特征处理之数值型数据(归一化)
什么是特征处理?通过特定的统计方法(数学方法)将待处理数据转换为算法要求的数据的这个过程称为特征处理。数值型数据归一化方案:归一化的特点对原始数据进行归一化处理后使其映射到指定范围内(通常默认是[0,1]之间)降低数据附带的量纲影响,使不同的特征具有相同的尺度(Scale),进而具有可比性(公平性)【注】 归一化也被称为最大最小标准化(min-max Normalization)、调节比例(Rescaling)我们常用的归一化...原创 2020-12-21 22:46:14 · 2291 阅读 · 0 评论 -
pandas实践之GroupBy()
官网地址:https://pandas.pydata.org/docs/reference/groupby.htmlpandas中对数据进行分组操作的方法,官方有很详细的教程。下面的案例是真实遇到的问题,看一看用pandas是如何解决的。构造数据import pandas as pdimport numpy as npdf = pd.DataFrame(data={ "boss":["A"]*3+["B"]*3+["C"]*4, "owner":["A1","A1","A2"..原创 2020-11-28 18:27:28 · 249 阅读 · 0 评论 -
手把手教你用pandas做数据区间划分
在数据分析的过程中,经常会遇到:年龄,收入,价格以及类似的数据,在数据分析前,需要将这些数据划分到一系列区间中,再将区间进行不同的编码,对编码后的数据进行分析。在pandas中可以使用pandas.cut()方法实现对数据的区间划分,以及对区间进行标记。案例数据以name,age,score为例,使用pandas.cut()方法对age、score进行区间划分。import pandas as pdimport numpy as npdf = pd.DataFrame(data=...原创 2020-11-15 11:48:37 · 23416 阅读 · 3 评论 -
pandas查看缺失数据占比(实战)
在数据建模前,需要查看每一列数据的缺失情况,当缺失值的占比超过一定阈值,就需要考虑,这一列数据(或者这一个变量)是否需要参与建模。一般选用的阈值在0.9,即:当某一个变量的缺失值占比达到90%以上,就需要删除。这里选用pandas作为主要的数据分析工具,感兴趣的读者可以去pandas官网逛逛,下面开始介绍,如何用pandas查看每一个变量的缺失占比情况,以及绘制出变量缺失分布的柱状图。导包import pandas as pdimport numpy as np构造数据df = ..原创 2020-11-15 11:26:25 · 8375 阅读 · 0 评论 -
python为什么不支持 i++/i--操作
在python中你是如何执行递增操作的呢?如果你是一位C++或者Java开发人员,在接触到python时则可能尝试过将类似于i++/i--递增(减)操作扩展到python,对,你一定想过。然而情况却不理想,python中只能使用类似于 i++/i--等操作。python中的自增操作下面代码几乎是所有程序员在python中进行自增(减)操作的常用方法>>>a=2>>> print(a)2>>> a += 1>>>...原创 2020-09-19 21:57:30 · 2417 阅读 · 0 评论