Pandas的数据清洗

原始数据: 

filecpu= "./statistic.csv"
filefre= "./statistic_freq.csv"
data_statistic = pd.read_csv(filecpu)
data_statistic_fre = pd.read_csv(filefre, sep=" ,split, ")

 

print(data_statistic.dtypes)
print('-----')
print(data_statistic_fre.dtypes)
print('-----')

#如果一列中含有多个类型,则该列的类型会是object,同样字符串类型的列也会被当成object类型.

清洗数据过程:

# 提取需要的2列数据
data_statistic_key = data_statistic[["Time", key]]
# 删除空数据的行
data_statistic_key = data_statistic_key.dropna(axis=0)
# 把日期数据转换成 datetime 的格式
data_statistic_key_time_ori = data_statistic_key["Time"]
time_standard = [parser.parse(x) for x in data_statistic_key_time_ori]
data_statistic_key["Time"] = time_standard
    def cleaning_data_statistic(self, data):
        #删除前10行数据
        #data1 = data.drop(data.head(10).index)
        key_data = data1.keys()
        len_key = len(key_data)
        #将% 替换为 空格
        data1[key_data[len_key - 1]] = data1[key_data[len_key - 1]].replace('%', '')
        data1_line2 = data1[key_data[len_key - 1]]
        if data1_line2.dtypes == object:
            #删除含有空格的数据
            data1 = data1[~ data1_line2.str.contains(' ')]
            #删除含有字符的数据
            data1 = data1[~ data1_line2.str.contains(r'[A-Za-z\n]')]

        data1_line2 = data1[key_data[len_key - 1]]
        if data1_line2.dtypes == object:
            #将数据类型转换为float,方便后续numpy数学运算
            data1[key_data[len_key - 1]] = data1[key_data[len_key - 1]].astype('float')

        return data1

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
系统根据B/S,即所谓的电脑浏览器/网络服务器方式,运用Java技术性,挑选MySQL作为后台系统。系统主要包含对客服聊天管理、字典表管理、公告信息管理、金融工具管理、金融工具收藏管理、金融工具银行卡管理、借款管理、理财产品管理、理财产品收藏管理、理财产品银行卡管理、理财银行卡信息管理、银行卡管理、存款管理、银行卡记录管理、取款管理、转账管理、用户管理、员工管理等功能模块。 文中重点介绍了银行管理的专业技术发展背景和发展状况,随后遵照软件传统式研发流程,最先挑选适用思维和语言软件开发平台,依据需求分析报告模块和设计数据库结构,再根据系统功能模块的设计制作系统功能模块图、流程表和E-R图。随后设计架构以及编写代码,并实现系统能模块。最终基本完成系统检测和功能测试。结果显示,该系统能够实现所需要的作用,工作状态没有明显缺陷。 系统登录功能是程序必不可少的功能,在登录页面必填的数据有两项,一项就是账号,另一项数据就是密码,当管理员正确填写并提交这二者数据之后,管理员就可以进入系统后台功能操作区。进入银行卡列表,管理员可以进行查看列表、模糊搜索以及相关维护等操作。用户进入系统可以查看公告和模糊搜索公告信息、也可以进行公告维护操作。理财产品管理页面,管理员可以进行查看列表、模糊搜索以及相关维护等操作。产品类型管理页面,此页面提供给管理员的功能有:新增产品类型,修改产品类型,删除产品类型。
Pandas是一个强大的数据处理和分析工具,它提供了丰富的功能来进行数据清洗。下面是一些常用的数据清洗操作: 1. 数据导入:使用Pandas可以方便地从各种数据源导入数据,如CSV文件、Excel文件、数据库等。 2. 缺失值处理:使用Pandas可以很方便地处理数据中的缺失值。可以使用`isnull()`函数检测缺失值,使用`fillna()`函数填充缺失值,或者使用`dropna()`函数删除包含缺失值的行或列。 3. 重复值处理:使用Pandas可以轻松地检测和删除数据中的重复值。可以使用`duplicated()`函数检测重复值,使用`drop_duplicates()`函数删除重复值。 4. 数据类型转换:Pandas可以将数据转换为不同的数据类型,如字符串、日期时间等。可以使用`astype()`函数进行数据类型转换。 5. 数据排序:使用Pandas可以对数据进行排序。可以使用`sort_values()`函数按照指定的列进行排序,使用`sort_index()`函数按照索引进行排序。 6. 数据筛选:使用Pandas可以根据条件筛选数据。可以使用布尔索引、`query()`函数或者`loc[]`、`iloc[]`函数进行数据筛选。 7. 数据合并:Pandas提供了多种方法来合并数据,如`concat()`函数、`merge()`函数和`join()`函数。 8. 数据分组和聚合:使用Pandas可以对数据进行分组和聚合操作。可以使用`groupby()`函数进行分组,然后使用聚合函数(如`sum()`、`mean()`、`count()`等)进行聚合计算。 9. 数据重塑:Pandas提供了多种方法来重塑数据的形状,如`pivot()`函数、`melt()`函数和`stack()`函数。 以上是一些常用的Pandas数据清洗操作,当然还有很多其他功能和方法可以用于数据清洗。如果你有具体的问题或者需要更详细的介绍,请告诉我。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值