数据分析基础步骤

Pandas是 Python 语言开发的用于数据处理(data manipulation)和数据分析(data analysis)的第三方库。它擅长处理数字型数据和时间序列数据,当然文本型的数据也能轻松处理。

用途:Pandas 对数据的处理是为数据的分析服务的,它所提供的各种数据处理方法、工具是基于数理统计学出发,包含了日常应用中的众多数据分析方法。 Pandas 可以实现复杂的处理逻辑,这些往往是 Excel 等工具无法处理的,还可以自动化、批量化,对于相同的大量的数据处理我们不需要重复去工作。 Pandas 可以做到非常震撼的可视化,它对接众多的高颜值可视化库,可以实现动态数据交互效果。

1、数据的导入(数据库数据读取)

read_sql_table只能够读取数据库的某一个表格,不能实现查询的操作。       pd.read_sql_table(table_name,con,schema=None,index_col=None, coerce_float=True, columns=None) read_sql_query则只能实现查询操作,不能直接读取数据库中的某个表。       pd.read_sql_query(sql, con, index_col=None, coerce_float=True) read_sql是两者的综合,既能够读取数据库中的某一个表,也能够实现查询操作。       pd.read_sql(sql, con, index_col=None, coerce_float=True, columns=None)

2、数据的合并(纵向堆叠——append方法)

append方法也可以用于纵向合并两张表。但是append方法实现纵向表堆叠有一个前提条件,那就是两张表的列名需要完全一致。append方法的基本语法如下 pandas.DataFrame.append(self, other, ignore_index=False, verify_integrity=False

3、数据的清洗

1、数据清洗是通过删除或修改不正确、不完整、不相关、重复或格式不正确的数据来为数据分析做准备的过程。 2、当涉及到分析数据时,这些数据通常是不必要的或没有帮助的,因为它可能会阻碍分析过程或导致不准确的结果。有几种方法可以清理数据,具体取决于数据的存储方式以及数据分析的方向。 数据清理不是简单地擦除信息以为新数据腾出空间,而是找到一种在不必删除信息的情况下最大限度地提高数据集准确性的方法。 3、首先,数据清理包括删除数据,也包括修复拼写和语法错误、标准化数据集、纠正相关错误(如空字段、缺少代码和识别重复数据点)。数据清理被认为是数据科学基础的一个基本要素,因为它在分析过程和发现可靠答案中起着重要作用。 4、最重要的是,数据清理的目标是创建标准化和统一的数据集,以允许商业智能和数据分析工具轻松访问和查找正确的数据。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值