缺失值填充：关于年龄特征

最新推荐文章于 2021-11-17 19:21:14 发布

数据西瓜皮

最新推荐文章于 2021-11-17 19:21:14 发布

阅读量3k

点赞数

分类专栏：数据处理文章标签：缺失值填充均值填充

本文链接：https://blog.csdn.net/weixin_38322363/article/details/83717950

版权

数据处理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

不妥之处，欢迎评论指出。

缺失值填充这回事我们第一能想到的就是使用0进行填充，但是如果是年龄的话直接使用0进行填充就有点不太靠谱了，那么怎么办呢？

情况一：全样本均值填充

如果整个样本群体的年龄方差不大，比如整个样本来源于初中生，年龄在13-15岁之间，那么直接使用全样本的均值填充即可。

情况二：分类样本均值填充

但是真实情况往往不会这么美好，哪怕是初中生也会有急着早读书的学生和可怜巴巴的留级生，再加上各个地区的入学年龄并不统一，那么年龄区间一下子就会被拉大到11-16，这时候全体均值就不是那么管用了。

为了消除地区的影响，我们可以分地区进行均值计算，然后使用与样本同地区的均值进行填充。在入学的场景中我们需要考虑的地区粒度是城市，那么如果是生活习惯类的场景，我们可以考虑省份，又或者是大区（华东、华南之类的）。

同理在其他的分析场景中，我们还可以考虑分性别、分职业等等…
还可以考虑使用多个因素叠加分类之后再计算均值进行填充。

条条大路通罗马，管用就行。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

数据西瓜皮

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

缺失值处理

goldendata的博客

09-23

2193

缺失值是指在数据采集与整理过程中丢失的内容。一般情况下，数据都是以关系型表的方式采集的，如下表是某次调查中一些受访者的基本情况见本文最后的表格。如果在表格中，某一个数据采集时无法获得，就会出现缺失值，例如在上表中“张三”的性别和“赵六”的年龄就出现了缺失。 缺失值的处理一般有两种方式，一是删除对应的记录，例如在上例中，如果张三的性别没有记录，出现缺失，则将张三的所有信息全部

python泰坦尼克号案例分析_python代写缺失值处理案例分析:泰坦尼克数据

weixin_39959192的博客

12-01

574

缺失值处理真实数据往往某些变量会有缺失值。首先，我们用 info( ) 语句操作，看到整份数据的大概情况：titanic_df.info()从这份数据我们可以发现，这里一共有 891 行数据，所以在中间那一列数据中看到的不是 891 个数据的，都是有缺失值的。比如年龄Age这一列，有714个非空数值，就有 891-714=177 个缺失值。又比如船舱号码 cabin，缺失值就更多了。登船码头的缺失...

参与评论您还未登录，请先登录后发表或查看评论

数据预处理----缺失值的填充

weixin_43776305的博客

05-23

5859

文章目录概述缺失值的常用处理方式sklearn中缺失值填充模块缺失值填充示例准备工作0填充均值填充众数填充中位数填充随机森林填充总结概述机器学习和数据挖掘中所使用的数据，永远不可能是完美的。很多特征，对于分析和建模来说意义非凡，但对于实际收集数据的人却不是如此，因此数据挖掘之中，常常会有重要的字段缺失值很多，但又不能舍弃字段的情况。因此，数据预处理中非常重要的一项就是处理缺失值。 缺失值的常用处理方式删除：数据缺失量比较少，删除后对模型的结果几乎不会造成影响；与模型准确性几乎无关的属性填充均值

Pandas系列（三）-缺失值处理

dian19881021的博客

03-11

281

内容目录 1. 什么是缺失值 2. 丢弃缺失值 3. 填充缺失值 4. 替换缺失值 5. 使用其他对象填充数据准备 import pandas as pd import numpy as np index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name=...

Pandas第6章：处理缺失数据

weixin_43016760的博客

06-23

795

Pandas第6章：处理缺失数据6.1缺失值查看6.2缺失值符号三种符号Nullable类型与NA符号6.3过滤、填充与删除6.4 问题与练习【练习一】现有一份虚拟数据集，列类型分别为string/浮点/整型，请解决如下问题a）请以列类型读入数据，并选出C为缺失值的行b）现需要将A中的部分单元转为缺失值，单元格中的最小转换概率为25%，且概率大小与所在行B列单元的值成正比。【练习二】现有一份缺失的数据集，记录了36个人来自的地区、身高、体重、年龄和工资，请解决如下问题：a）统计各列缺失的比例并选出在后三列

Pandas学习笔记四——Pandas处理缺失值

Little Garden

08-13

4224

Pandas处理缺失值 如何发现缺失值 #Pandas数据结构有两种方法可以有效的发现缺失值 #isnull()方法 import pandas as pd import numpy as np df = pd.DataFrame([[1, np.nan, 2], [2, 3, 5], [np...

pandas用众数填充缺失值_sklearn中的数据预处理和特征工程

weixin_39538847的博客

12-31

916

小伙伴们大家好~o()ブ，我是菜菜，我的开发环境是Jupyterlab，所用的库和版本大家参考：Python3.7.1(你的版本至少要3.4以上Scikit-learn0.20.0(你的版本至少要0.19Numpy1.15.3,Pandas0.23.4,Matplotlib3.0.1,SciPy1.1.01sklearn中的数据预处理和特征工程sklearn中包含众多数据预处理和...

pandas年龄Sex缺失值用平均值填充

热门推荐

TensorFlowNews

07-28

1万+

作者|KAUSHIK 编译|VK 来源|Analytics Vidhya 概述学会用KNNImputer来填补数据中的缺失值 了解缺失值及其类型介绍 scikit learn公司的KNNImputer是一种广泛使用的缺失值插补方法。它被广泛认为是传统插补技术的替代品。在当今世界，数据是从许多来源收集的，用于分析、产生见解、验证理论等等。从不同的资源收集的这些数据通常会丢失一些信息。这可能是由于数据收集或提取过程中的问题导致的，该问题可能是人为错误。处理这些缺失值，成为数据预处理中的一个重要步

如何根据分组平均值填充缺失值？

可又不甘懦弱

02-08

1888

import pandas as pd import numpy as np np.random.seed(111) df = pd.DataFrame({'Title':np.random.choice(['Mr','Miss','Mrs'],20),'Age':np.random.randint(20,50,20)}) df.loc[[5,9,10,11,12],['Age']]=np.nan ave_age = df.groupby('Title').mean()['Age'] df.loc[pd

【机器学习入门】(6) 随机森林算法：原理、实例应用（沉船幸存者预测）附python完整代码和数据集

博观而约取，厚积而薄发

11-17

1万+

今天我和大家分享一下python机器学习的随机森林算法。主要内容有： (1) 算法原理、(2) sklearn实现随机森林、(3) 泰坦尼克号沉船幸存者预测。文末附python完整代码和数据集。那我们开始吧。

【机器学习】数据预处理整理

CWS_chen

02-28

2107

加深理解数据挖掘概念及数据的一些理论内容，会让你对数据有直观的认识，保持清晰的目的性，在之后的数据挖掘工作中如鱼得水。数据挖掘到底是啥?官方定义，在大型数据存储库中，自动地发现有用信息的过程。数据挖掘的一般过程： 1、数据预处理 2、数据挖掘 3、后处理 1、预处理。通常数据挖掘需要较大的数据量，这些数据可能格式不同，存在缺失值或无效值，即是数据清洗处理这些‘脏’数据。...

pandas.dropna/isnull/fillna/astype的用法

dili8870的博客

07-12

692

删除表中的某一行或者某一列更明智的方法是使用drop，它不改变原有的df中的数据，而是返回另一个dataframe来存放删除后的数据。（1）清理无效数据 df[df.isnull()] #返回的是个true或false的Series对象（掩码对象），进而筛选出我们需要的特定数据。 df[df.notnull()] df.dropna() #将所有含有na...

Python数据挖掘实战

12-15

购买课程后，可扫码进入学习群，获取唐宇迪老师答疑 Python数据挖掘技术系列视频培训教程基于真实数据集进行案例实战，使用Python数据科学库从数据预处理开始一步步进行数据建模。对于每个案例首先进行流程解读与数据分析，建立特征工程，详细解读其中每一步原理与应用。该课程共有十一大章节，88课时，从泰坦尼克号获救预测进行数据分析作为第一章节，后边依次是用户画像、Xgboost实战、京东用户购买意向预测、Kaggle数据科学调查、房价预测、论文与BenchMark的意义、Python实现音乐推荐系统、fbprophet时间序列预测、用电敏感客户分类、数据特征。

python检测缺失值_python缺失值的填充

weixin_32701893的博客

01-29

2535

今天分享的是在数据分析中处理缺失值的方法和python的实现。那为什么我们要对缺失值进行填充呢，想象你需要分析产品的销售和顾客数据，你注意到很多元组的属性否没有记录值，怎样才能为该属性天上缺失值呢?一般的方法：①忽略该元组，在csv文件中来说就是删除这一行数据。这种方法除非在该行缺失很多属性值的情况下使用，否则不是很有效。②人工填写缺失值，这种方法对于数据量和缺失量较小的数据来说还可以，在大量的数...

用Python进行数据清洗！

Pythoncxy的博客

09-19

789

导读：数据清洗是数据分析的必备环节，在进行分析过程中，会有很多不符合分析要求的数据，例如重复、错误、缺失、异常类数据。 Python资源共享群：626017123 01 重复值处理数据录入过程、数据整合过程都可能会产生重复数据，直接删除是重复数据处理的主要方法。pandas提供查看、处理重复数据的方法duplicated和drop_duplicates。以如下...

python缺失值处理的方法

qq_58557813的博客

11-14

4964

咋说呢，这本来是我们统计老师给的一个小期中作业，方法并不详尽，我找了几个简单的，看个乐就行。泰坦尼克号数据集的使用是因为之前做过它的一系列分析，所以图个方便。其他数据文件由于缺失值比较少甚至没有缺失值，我就人为的制造缺失值，建议用代码实现这一过程。目录 1、删除元组（1）删除存在缺失值的个案（2）删除含特殊值的特征 2、不处理 3、缺失值插补（1）人工补齐数据，适用于规模小，缺失少的数据（2）用平均数补齐数据（3）用众数补齐数据（4）回归建模填充数据（5）K最近邻算法，