Pandas
Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
Michael阿明
两个孩子的父亲,8年机械工程师,已转行互联网做算法,一起继续加油!高举智慧,她就使你高升;怀抱智慧,她就使你尊荣。-- 箴言(4:8)
展开
-
polars 和 pandas 数据处理效率对比
Polars是一个高性能的数据处理库,它旨在提供快速的数据处理能力,特别是在处理大型数据集时。Polars是由Rust语言编写的,这使得它在性能和内存安全性方面具有显著优势。高性能:Polars的设计重点在于优化数据处理的速度。它利用Rust语言的性能优势,提供了快速的数据过滤、分组、排序和其他常见数据操作。内存效率:Polars在内存管理上进行了优化,减少了不必要的内存分配和复制,这使得它在处理大型数据集时更加高效。并行处理。原创 2024-04-14 16:57:02 · 827 阅读 · 0 评论 -
pandas group by + rank 求在分组内的百分位、最接近某百分位的行
分组后,使用 rank。原创 2023-01-10 19:13:10 · 1060 阅读 · 0 评论 -
尽量使用写文本方式存储数据(pandas 和 file write效率对比)
对比:使用 pandas 存储数据 VS 使用写文本 方式存储数据import pandas as pdimport timedef pandasWrite(): t0 = time.time() colname = [str(i) for i in range(550)] df = pd.DataFrame(columns=colname) for i in range(100): df.loc[len(df)] = dict(zip(colnam.原创 2021-12-17 16:11:03 · 908 阅读 · 0 评论 -
Pandas入门3(dtype+fillna+replace+rename+concat+join)
文章目录5. dtype 数据类型6. Missing data 缺失值6.1 查找缺失值 pd.isnull(),pd.notnull()6.2 填补缺失值 fillna(),replace()7. Renaming and Combining 重命名、合并7.1 Renaming 重命名7.2 Combining 合并数据learn from https://www.kaggle.com/learn/pandas上一篇:Pandas入门2(DataFunctions+Maps+groupby+sor原创 2020-05-18 21:50:32 · 1500 阅读 · 52 评论 -
Pandas入门2(DataFunctions+Maps+groupby+sort_values)
文章目录3. Summary Functions and Maps3.1 Summary Functions 数据总结函数3.2 Maps 映射3.2.1 map()3.2.2 apply()3.2.3 内置转换方法4. Grouping and Sorting4.1 Grouping 分组4.2 Sorting 排序learn from https://www.kaggle.com/learn/pandas上一篇:Pandas入门1(DataFrame+Series读写/Index+Select+As原创 2020-05-18 15:02:56 · 14059 阅读 · 47 评论 -
Pandas入门1(DataFrame+Series读写/Index+Select+Assign)
文章目录1. Creating, Reading and Writing1.1 DataFrame 数据框架1.2 Series 序列1.3 Reading 读取数据2. Indexing, Selecting, Assigning2.1 类python方式的访问2.2 Pandas特有的访问方式learn from https://www.kaggle.com/learn/pandas1. Creating, Reading and Writing1.1 DataFrame 数据框架创建Data原创 2020-05-17 19:10:24 · 3225 阅读 · 125 评论