![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python 数据分析
文章平均质量分 95
以介绍1. numpy 模块,2. pandas 模块,3. matpotlib 模块 为切入点,一起探讨数据分析工作
江南野栀子
人在红尘里,心在山水间。
展开
-
Pandas 模块-操纵数据(12)-处理字符串数据
我们实际处理数据时候,往往要对原始数据进行很多精细化处理,下面减少一些常用的处理字符串的方式。原创 2024-05-22 11:19:26 · 1052 阅读 · 0 评论 -
Pandas 模块-操纵数据(11)-二元运算--超级add、sub、mul、div、mod、pow等等
前面说过 Pandas 模块最大的优势是数据计算非常快,尤其是在希望对每个数据进行相同数据操作时候;如果只是会Python的基本操作,免不了一顿 for 循环,但是使用 Pandas 模块,那么代码表现就优雅多了,也快多了。今天我们熟悉一下 DataFrame 自带的二元运算,从我们熟悉的加减乘除开始吧。原创 2024-04-25 17:01:56 · 735 阅读 · 0 评论 -
Pandas 模块-操纵数据(10)-数据分组 .groupby()
大家如果用过数据库,肯定对 group by 命令很熟悉,Pandas 的 .groupby() 函数作用和数据库中的 group by 非常相似。它会将 DataFrame 数据根据一定的规则进行分组,返回给用户一个 groupby 对象,这个对象包括了不同组的相关信息。原创 2021-12-19 13:14:34 · 4770 阅读 · 0 评论 -
Pandas 模块-操纵数据(9)-分清楚 None 和 NaN 值,处理好 NaN 值
Python 中特殊的常量 None,None 和 False 不同,它不表示 0,也不表示空字符串,而表示没有值,也就是空值。numpy 模块中有三个常量 np.NAN 、np.nan 、np.NaN,这三个常量其实是一个东西。后面我们就只说 np.NaN 即可。.isnull() 和.notnull() ,.isna() 和 .notna() 使用方法,都不区分 NaN 和 None值,这到底是为什么呢?原创 2021-12-10 16:52:59 · 5354 阅读 · 0 评论 -
Pandas 模块-操纵数据(6)-DataFrame 使用自定义函数
如果想要应用自定义的函数,或者把其他库中的函数应用到 Pandas.DataFrame 对象中,有以下三种方法:操作整个 DataFrame 的函数:pipe()操作行或者列的函数:apply()操作单一元素的函数:applymap()原创 2021-12-08 17:12:10 · 4861 阅读 · 0 评论 -
Pandas 模块-操纵数据(8)-去除重复行 .drop_duplicates()
DataFrame.drop_duplicates(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first', inplace: 'bool' = False, ignore_index: 'bool' = False)原创 2021-12-09 17:22:00 · 3145 阅读 · 0 评论 -
Pandas 模块-操纵数据(7)-检测是否重复 .duplicated()
数据重复是一个特别普遍的现象,但不一定是用户所希望看到的。无论是从数据存储,还是数据利用角度,过多冗余重复的数据都会带来不必要的开支。首先,我们要能检测相关数据是否重复。Dataframe.duplicated(subset: 'Optional[Union[Hashable, Sequence[Hashable]]]' = None, keep: 'Union[str, bool]' = 'first')原创 2021-12-09 16:21:15 · 5365 阅读 · 0 评论 -
Pandas 模块-操纵数据(5)-数据排序- .sort_values()
5. 使用 .sort_values() 查看按照值排序的数据5.1.sort_values() 语法语法:.sort_values(by, axis=0, ascending = Ture, inplace = Flase, kind = ‘quicksort’, na_position=‘last’, ignore_index=False, key=None)相对于 .sort_index()函数,此处多了一个 by原创 2021-12-07 19:59:05 · 4193 阅读 · 0 评论 -
Pandas 模块-操纵数据(3)-iteration 遍历
对于 pandas.DataFrame 有以下三种遍历方法iterrows(): 按行遍历,将 DataFrame 的每一行迭代为 (index, data) 对,可以通过data[column_name] 和 data.column_name对元素进行访问。itertuples(): 按行遍历,将 DataFrame 的每一行迭代为元祖,可以通过data[ 列号数值 ] 和 data.column_name对元素进行访问iteritems():按列遍历,将 DataFrame 的每一列迭代为.原创 2021-12-07 16:02:25 · 4490 阅读 · 1 评论 -
Pandas 模块-操纵数据(4)-数据排序- .sort_index()
使用 .sort_index() 查看按照轴排序的数据df. sort_index() 可以完成和 df. sort_values() 完全相同的功能,但python更推荐用只用df. sort_index()对“根据行标签”和“根据列标签”排序,其他排序方式推荐用df.sort_values()。原创 2021-12-07 17:04:26 · 10680 阅读 · 0 评论 -
Pandas 模块-操纵数据(2)-重新索引-reindex()函数
2. 重新索引2.1reindex() 函数2.1.1reindex() 语法DataFrame.reindex(self,labels=None,index=None,columns=None,axis=None,method=None,copy=True,level=None,fill_value=nan,limit=None,tolerance=None)使用可选的填充逻辑使DataFrame符合新索引。labels : 类似数组,可选,新 labels ...原创 2021-12-07 11:10:15 · 13208 阅读 · 2 评论 -
Pandas 模块-操纵数据(1)-重命名-rename()-rename_axis()
.rename() 函数-修改 Dataframe 数据的行名和列名.rename_axis() 函数-设置索引或列的axis名称。原创 2021-11-23 12:51:09 · 10643 阅读 · 0 评论 -
Pandas 模块 - 读写(4)-从数据库读写数据-read_sql/to_sql
4.从数据库读写数据-read_sql/to_sql4.1 .read_sql() 语法.read_sql 的用法比较简单,大概因为数据库的数据基本上都是比较规整的。参数具体用法请见范例。Help on function read_sql in module pandas.io.sql:read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, ...原创 2021-11-21 13:48:23 · 7325 阅读 · 0 评论 -
Pandas 模块 - 读写(3)-从剪贴板读写数据-read_clipboard/to_clipboard
.read_clipboard() 可以在直接读取剪切板中的数据。你需要做的只是在某种文档例如 Excel 表格里按一下Ctrl+C,然后 read_clipboard就会读取到剪切板中的这些数据。原创 2021-11-19 16:31:12 · 2632 阅读 · 1 评论 -
Pandas 模块 - 读写(2)-Excel 表格及其他-read_excel/to_excel
.read_excel() 和 .to_excel() 是一对,恰如 .read_csv() 和 .to_csv() 一样,甚至很多参数都是雷同的。2. 利用.read_excel() 和 .to_excel() 从外部读取或者写入数据2.1 .read_excel()语法网上有很多 .read_excel() 语法结构,但是最权威的还是写在代码里面的。具体每个参数的用法,就在范例里面一一说明吧。Help on function read_excel in modul...原创 2021-11-19 16:06:14 · 3057 阅读 · 0 评论 -
Pandas 模块 - 读写(1)-csv/txt等文档-read_csv/to_csv
Pandas 还支持从外部读取或者写入数据,这也是办公自动化的重要基础。Pandas 目前支持下面几种方式: Format Type Data Description R...原创 2021-11-17 14:43:21 · 6298 阅读 · 0 评论 -
pandas DataFrame 用法--查看和选择数据
1.使用 .head() 查看 DataFrame 头部数据2.使用 .tail() 查看 DataFrame 尾部数据3.使用 .describe() 查看 DataFrame 统计数据4.使用 .T查看 DataFrame 转置数据5. 使用 .sort_index() 查看按照轴排序的数据6. 使用 .sort_values() 查看按照值排序的数据7.at 函数:通过行名和列名来取值(取行名为a, 列名为A的值)8.iat 函数...原创 2021-11-15 21:39:19 · 7305 阅读 · 0 评论 -
pandas 的数据类型简单介绍-Series 与 DataFrame
目录1. Series1.1Series 定义1.2Series 构造2. DataFrame2.1 DataFrame 定义2.2 DataFrame 构造2.2.1 对列表的转换和构造2.2.2 对字典的转换和构造2.2.3对元组的转换和构造Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理我们目前绝大多数应用领域里的典型用例。1. Series1.1Series 定义...原创 2021-11-08 17:25:53 · 4017 阅读 · 0 评论 -
Numpy 模块 ndarray 形状操纵-下
将一个数组拆分成几个较小的数组3.1 split()语法格式:numpy.split(ary, indices_or_sections, axis=0) 功能:把一个数组从左到右按顺序切分参数:ary:要切分的数组 ,indices_or_sections:如果是一个整数,就用该数平均切分,如果是一个数组,为沿轴 ...原创 2021-11-05 10:28:39 · 91 阅读 · 0 评论 -
Numpy 模块 ndarray 形状操纵-上
目录1. 改变 ndarray数组形状1.1 reshape()1.2 扁平化函数 ravel() 和 flatten()1.3 resize()1.4 转置函数 transpose()2. 将不同数组堆叠在一起2.1 stack()2.2 vstack() 和 hstack()前面两小节地址: 第一小节:Numpy 模块简介_一分耕耘一分收获-CSDN博客第二小节:Numpy 模块-常用函数_一分耕耘一分收获-CSDN博客_...原创 2021-11-04 16:47:32 · 683 阅读 · 0 评论 -
Numpy 模块-常用(间隔索引、数学运算符、数学函数、比较运算符、统计函数、随机数生成,位运算)
目录一、常用函数1. 间隔索引(花式索引)2. 数学运算符3. 比较运算符和相关函数4. 常用的数学函数5. 常用的统计函数6. 随机数生成7. 位运算操作符和相关函数上一篇Numpy 模块简介_一分耕耘一分收获-CSDN博客在上一篇中简单说了ndarray的一维数组和二维数组,这一篇主要讲二维数组的常用函数一、常用函数1. 间隔索引(花式索引) 一般的索引方式已经在上一篇讲过,其中提过一维数组的间隔索引。现在说说二维数组的间隔索引,又叫花式索引,...原创 2021-10-30 17:42:58 · 389 阅读 · 0 评论 -
Numpy 模块简介
Python 数据分析三剑客:1. numpy 模块2. pandas 模块3. matpotlib 模块NumPy(Numerical Python的简称)是是Python 数据分析三剑客之一,它是高性能科学计算和数据分析的基础包。NumPy最重要的一个特点就是其N维数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器。可以利用这种数组对整块数据执行一些数学运算,比python自带的数组以及元组效率更高,其语法跟变量元素之间的运算一样,无需进行循环操作。在使用py..原创 2021-10-30 13:31:32 · 3093 阅读 · 1 评论