Python数据分析处理（一）——处理剔除异常值以全国数学建模（CUMCM 2011 A题）为实例

最新推荐文章于 2024-02-02 01:47:16 发布

Pang文

最新推荐文章于 2024-02-02 01:47:16 发布

阅读量1.8k

点赞数

分类专栏： # python分享文章标签： python 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pangzhaowen/article/details/103941928

版权

python分享专栏收录该内容

71 篇文章 1 订阅

订阅专栏

由于经历一些调试，所以代码结构不一定最优，适合数据处理的新手，大神欢迎提出改进

数据来源：

http://www.mcm.edu.cn

设p为均值，s为标准差

由表三可知，元素背景值在[p-s, p+s]，所以应用到表一，将不符合的数据剔除

上代码

import numpy as np
import pandas as pd
path = "E:/Model_building/A/cumcm2011A附件_数据.xls"
s1 = pd.read_excel(path, sheet_name="附件1")
s2 = pd.read_excel(path, sheet_name="附件2")
s3 = pd.read_excel(path, sheet_name="附件3") # 读入一个文件中的三个表
s1 = s1.values # 转化为数值形式
s2 = s2.values
s3 = s3.values
s1 = pd.DataFrame(s1) # 转化为dataframe形式
s2 = pd.DataFrame(s2)
s3 = pd.DataFrame(s3)
print(s1)
s1 = s1.iloc[2:, 0:5]
s2 = s2.iloc[2:, 0:9]
s3 = s3.iloc[2:, :] # 去掉表头等不需要的部分，如表一的右边
print(s1,'\n')
print(s2,'\n')
print(s3,'\n')
l = []
for c in range(1,9): # 将各元素标准差放到列表
a = s2.iloc[: ,c].std()
l.append( a )
print(a,'\n')

p = []
for c in range(1,9): # 各元素均值放到列表
a = s2.iloc[:, c].mean()
p.append( a )

for c in range(0,8):
themin = p[c] - 2*l[c]
themax = p[c] + 2*l[c]
print(themin, ' ', themax)
s2 = s2[(s2.iloc[:, c+1] >= themin )& (s2.iloc[:, c+1] <= themax ) ] # 选出符合的行
print(s2)
print('\n',s2.shape[0],'\n')
ID = pd.DataFrame(s2.iloc[:, 0]) # 表二0列单独成表
print(ID)
s1 = pd.merge(s1, ID, how="inner", right_on=0, left_on=0) # 找出表一0列在表二0列的行，merge，join，constack进行拼接
print(s1)
path = "E:/Model_building/A/" # 保存
s1.to_excel(path+"sheet1.xlsx")
s2.to_excel(path+"sheet2.xlsx")
s3.to_excel(path+"sheet3.xlsx")

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Pang文 CSDN认证博客专家 CSDN认证企业博客

码龄7年

168: 原创

3万+: 周排名

116万+: 总排名

29万+: 访问

: 等级

4850: 积分

137: 粉丝

186: 获赞

53: 评论

846: 收藏

私信

关注

热门文章

分类专栏

最新评论

windows下使用celery启动报错解决
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
windows下使用celery启动报错解决
乐以礼: 这个方法可以的，谢谢博主
为什么工厂模式是华而不实的—浅谈工厂模式的利与弊
YUHO_: 不需要吧，直接加一个新的create1不就行了，之前沿用之前的，或者给原来的create固定一个参数
from StyleFrame import StyleFrame, Styler ModuleNotFoundError: No module named ‘StyleFrame‘
赖先生企采供应中心: 搞了一个早上弄不起来，感谢分享，好人一生平安
为什么工厂模式是华而不实的—浅谈工厂模式的利与弊
Q_8995770: 我就想请问一下，构成函数多了一个参数的时候，如果使用new创建对象需要改一百次，难道使用简单工厂就不需要改一百次吗？？？你所有调用简单工厂的地方是不是也得把参数传到工厂里面去，然后工厂才能拿到参数进行new啊？？？？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。