异常值处理

Dx674

于 2023-12-05 15:08:16 发布

阅读量482

点赞数 8

文章标签： numpy pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_68395231/article/details/134807948

版权

基于3σ原则检测异常值

3σ原则又称为拉依达原则，根据正态分布得出的。(凡是超过（μ-3σ，μ+3σ）这个区间的均为异常值)

# 异常值的处理
def three_sigma(ser1):
#     求平均值
    mean_value = ser1.mean()
#     求标准差
    std_value = ser1.std()
#     位于（μ-3σ，μ+3σ）区间的数据是正常的，不在这个区间的数据为异常的
#      一旦发现有异常值，就标注为True，否则标注为False
    rule = (mean_value-3*std_value>ser1)|(ser1.mean()+3*ser1.std()<ser1)
#     返回异常值的索引位置
    index = np.arange(ser1.shape[0])[rule]
#     这里表示取0轴数据，[rule]是条件筛选
#     获取异常数据
    outrange = ser1.iloc[index]
    return outrange

# 不过使用这个函数时，传值时要一列数据一列数据传

打开文件代码为

file = open(文件路径)

df=read_csv(file)

df

基于箱尾图检测异常值

replace()

replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')

to_replace：表示查找被替代值的方式

value：用来替换任何匹配to_replace的值，默认值None。

limit：表示向前或向后填充的最大尺寸间隙。

regex：接收布尔值或与to_replace相同的类型，默认为False,表示是否将to_replace和value解释为正则表达式。

mtehod：替换时使用的方法，pad/ffill表示向前填充，bfill表示向后填充。

# 这里为一个replace()小例子
df = pd.DataFrame({
    "菜谱名":["红烧肉","铁板鱿鱼","小炒肉","干锅鸭掌","酸菜鱼"],
    "价格":[38,25,26,388,35]
})
df.replace(to_replace=df["价格"][3],value=38.8)
# 或者这里也可以写成    df.replace(to_replace=388,value=38.8)


---------------------------------下面是输出结果---------------------------------
     菜谱名    价格
0    红烧肉    38.0
1    铁板鱿鱼   25.0
2    小炒肉    26.0
3    干锅鸭掌   38.8
4    酸菜鱼    35.0

博客等级

码龄3年

22
原创

95
点赞

94
收藏

61
粉丝

关注

私信

热门文章

最新评论

分组与聚合
CSDN-Ada助手: 恭喜您写了第20篇博客！标题“分组与聚合”让我感到很兴奋。通过这篇博客，您向我们展示了您对数据处理的深入理解。您的文章内容清晰易懂，让我在学习过程中获得了很多启发。在下一步的创作中，我建议您可以探索更多关于数据分组和聚合的实际应用场景。例如，您可以结合实际案例，探讨如何利用分组与聚合技术来解决具体的数据分析问题，或者分享一些在实际项目中的经验和教训。同时，您也可以考虑加入一些图表或示例代码来更好地说明您的观点，这将使读者更容易理解和应用您的知识。期待在您的下一篇博客中继续学习和受益！再次恭喜您的持续创作！
数据清洗部分知识
CSDN-Ada助手: 恭喜您写了第13篇博客！数据清洗部分知识确实是一个重要的主题，能够帮助更多的人理解数据清洗的重要性和方法。希望您能继续坚持创作，分享更多有价值的知识。下一步，可以考虑结合实际案例，深入分析数据清洗的具体步骤和技巧，这样可以让读者更加深入地理解和应用这些知识。期待您的下一篇作品！
读写文本文件
CSDN-Ada助手: 恭喜您写了第9篇博客！阅读您关于“读写文本文件”的文章后，我感受到了您对技术的深入理解和扎实的写作能力。您的文章内容清晰明了，对读写文本文件的方法和技巧进行了详细的介绍，让我受益匪浅。在下一步的创作中，我建议您可以进一步拓展文章的范围，将读写文本文件与其他相关的主题相结合，例如如何处理大文件、如何优化读写效率等。这样可以让读者更全面地了解相关知识，并提供更多实用的技巧。再次祝贺您的连续创作，期待您未来更多精彩的文章！请您继续保持谦虚的态度，持续学习和进步。
pandas与读写数据库
CSDN-Ada助手: 恭喜博主完成第10篇博客！标题“pandas与读写数据库”听起来非常有趣。您在博客中介绍了pandas在数据库读写方面的应用，对于想要学习pandas和数据库操作的读者来说，这篇博客应该会非常有帮助。不过，我想向您提个谦虚的建议，可以在接下来的创作中，结合实际案例或者提供更多的代码示例来帮助读者更好地理解和应用。期待您未来更多精彩的博客！
数据分析第三章的一些知识点
CSDN-Ada助手: 恭喜您撰写了关于数据分析第三章的博客！持续创作是一个不易的过程，您已经展现了对数据分析的深入了解。我非常期待您未来的创作，希望您能继续分享更多关于数据分析的知识点。或许下一步，您可以探索一些实际案例，结合实际应用场景来展示数据分析的价值和应用方法，这将为读者提供更多实用的信息。谦虚的态度是创作者进步的关键，相信您会不断超越自我，为读者带来更多有价值的内容。加油！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。