缺失值的前期处理

建立模型的时候,我们对于缺失值太大的特征需要删除,否则还可以对我们造成噪音数据。
对于缺失值的处理,一般来说先判定缺失的数据是否有意义。
从确实信息可以发现,本次数据集缺失值较多的属性对我们模型预测意义不大。
统计每列属性缺失值的数量,删除缺失值过高的比例的函数。
为此本人写了函数如下:

def null_ratio(data, ratiolimit = 0.4):
    #删除缺失值过高的比例的函数
    df_null = data.isnull().sum(axis=0).sort_values(ascending=False)/float(len(data))
    null_ratio = pd.DataFrame(df_null)
    null_ratio = null_ratio.reset_index() #重置索引
    null_ratio = null_ratio.rename(columns = {'index':'Col', 0:'value_retio'}, copy = False)    
    df_nullre = null_ratio[null_ratio.value_retio < ratiolimit] #删掉缺失值比例>0.4的特征   
    refesh_data = data[list(df_nullre['Col'])] 
    return refesh_data

调用函数:

df1 = null_ratio(df)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据可视化是指通过图形化的方式将数据呈现出来,以便帮助人们更好地理解和分析数据的趋势、关系和模式。在进行数据可视化之前,需要进行前期数据爬虫和数据清洗。 数据爬虫是指利用编程技术从网页或其他数据源中提取数据的过程。通过数据爬虫,可以自动化地收集大量的数据,并保存到本地。例如,我们可以编写爬虫程序从互联网上提取各种类型的数据,如股票价格、天气信息等。 数据清洗是指将收集到的原始数据进行处理和整理,以便后续分析和可视化。在数据清洗过程中,需要处理和解决数据中的问题,如缺失值、异常值、不一致的数据格式等。通过数据清洗,可以提高数据的准确性和可靠性,从而更好地支持后续的数据可视化工作。 一旦完成了数据爬虫和数据清洗的步骤,就可以将汇总后的数据保存到一张Excel表中。Excel是一种常用的办公软件,拥有强大的数据处理和分析功能。通过将数据保存到Excel表中,可以方便地进行数据的进一步分析和可视化展示。 在Excel表中,可以利用其丰富的图表功能,如柱状图、折线图、饼图等,将数据可视化地展现出来。通过合适的图表类型和样式,可以直观地呈现数据的趋势、关系和模式,帮助人们更好地理解数据,并做出相应的决策。 综上所述,数据可视化经过前期数据爬虫和数据清洗后,将汇总后的一张Excel表,可以通过Excel的图表功能进行数据的可视化展示,以便人们更好地理解和分析数据

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值