数据科学库（HM）（Day4）——pandas学习

Wuli小团

于 2022-05-24 22:45:46 发布

阅读量1k

点赞数

分类专栏：数据科学库（HM）文章标签：学习 python 机器学习

本文链接：https://blog.csdn.net/weixin_38551226/article/details/124936688

版权

本文详细介绍了pandas库，包括Series的创建、切片和索引、读取外部数据、DataFrame的排序及布尔索引。还讨论了字符串方法、缺失数据处理以及如何分析数据分布。

摘要由CSDN通过智能技术生成

pandas

numpy帮助我们处理数值数据
pandas帮我们处理数值数据+其它类型的数据

pandas的常用数据类型

series一维，带标签数组
dataframe二维，series容器

pandas之Series创建

temp_dict = {"name":"xiaohong" ,"age":30 ,"tel":10086}

t3 = pd.Series(temp_dict)

t3

name    xiaohong
age           30
tel        10086
dtype: object

pandas的切片和索引

切片：直接传入start，end，步长
索引：一个的时候直接传入序号或者index，多个的时候传入序号或者index的列表

pandas之Series的索引和值

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Wuli小团

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据科学库（HM）（Day4）——pandas学习

数据科学库（HM）（Day4）——pandas学习
复制链接

扫一扫

专栏目录

数据挖掘代码实例学习——Pandas、sklearn数据预处理（包含pandas库以及所需依赖包安装教程）

weixin_52135595的博客

09-01

4532

无论是在数据挖掘还是机器学习当中，数据的好坏很大程度决定了最后训练出来的模型的预测和泛化能力的好坏。为了训练出质量更高的模型，通常我们都需要在训练之前对我们的数据集进行预处理。在文本领域主要使用pandas、numpy对数据进行预处理，在图像领域则使用opencv、numpy来处理，图像的预处理可以详见我之前的博客，今天我们将使用pandas来对文本数据进行预处理。数据预处理是机器学习和数据挖掘中非常重要的一个步骤，对原始数据进行相应的处理，可以为后续挖掘建模提供良好的数据基础。...

python pandas 读取 0开头的字符串随机抽取数据

wouderw的博客

10-25

837

版权声明：本文为CSDN博主「AI视觉网奇」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/jacke121/article/details/127085729。data = data.sample(n=1000,random_state=1) #随机抽取1000行。itertuples速度最快，是iterrows速度的20-30倍。code是列名，需要换成你的文件列名，读取时会对那一列进行处理。

参与评论您还未登录，请先登录后发表或查看评论

spark dataframe操作集锦（提取前几行，合并，入库等）

大数据挖掘SparkExpert的博客

04-02

9万+

spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就是registerTemple注册成表，再进行写入到HIVE中。

截取列表前面100行_(300W)+行*(50+)字段数据读取处理实例

weixin_39890332的博客

12-03

414

大家好，我是Imp Sue.一个梦想要成为data sciense的菜鸟。最近开始着手写知乎，记录下成长点滴，废话不多说，开冲。最近有了新任务，产品经理需要我在存量客户数据中查找出双卡客户，并呈现相关的客户业务办理明细，找出其中办理了58元+套餐的客户，用于业务分析。业务细节大家可以忽略，简单来说，我就是拿到了两份数据。第一份就是存量客户的数据明细，里面记录着**移动公司地市范围内所有客户以及向关...

使用实现pandas读取csv文件指定的前几行

09-20

下面小编就为大家分享一篇使用实现pandas读取csv文件指定的前几行，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Pandas100秒处理一亿行数据

jambone的博客

12-11

1万+

Python数据处理心得－－Pandas100秒处理一亿行数据 1. 背景－为啥要用pandas 公司的日常运营数据通过大数据平台（HIVE SQL）通过汇总后，推送给业务部门进行日常分析的数据仍然非常大。从数据量从PB&TB级降到了GB级，一般主要通过Mysql进行存储&聚合分析。日或周的数据，mysql处理还是可以的。到月数据，超过10GB（1亿行），处理起来就开始吃力，数据吞

python日记Day18——Pandas之Excel绘图

12-22

python日记——Pandas之Excel绘图利用pandas和pyplot进行数据可视化，绘图过程中使用到的excel文件如下：excel文件，提取码：falj 柱图的绘制 1、柱状图： import pandas as pd import matplotlib.pyplot as plt ...

数据科学包——pandas基础（核心数据结构）

01-20

标签对齐操作4.name属性二、DataFrame1.创建1.1 从字典创建1.2 从结构化数据中创建1.3 从字典列表创建1.4 从元组字典创建1.5 从 Series 创建2.列选择/增加/删除2.1 选择列2.2 删除列2.3 插入列3.索引和选择4.数据...

财报数据可视化 —— pandas数据分析，pyecharts可视化

06-03

"财报数据可视化 —— pandas数据分析，pyecharts可视化"的主题聚焦于使用Python中的pandas库进行数据预处理和分析，以及利用pyecharts库进行数据可视化。这两个强大的工具结合，能够帮助我们高效地理解并展示财务...

pandas groupby 分组取每组的前几行记录方法

12-25

直接上例子。 import pandas as pd df = pd.DataFrame({'class':['a','a','b','b','a','a','b','c','c'],'score':[3,5,6,7,8,9,10,11,14]}) df: class score 0 a 3 1 a 5 2 b 6 3 b 7 4 a 8 5 a 9 6 b 10 7 c 11 8 c 14 df.sort_values(['class','score'],ascending=[1,0],inplace=True) grouped =

python中dataframe常见操作：取行、列、切片、统计特征值

最新发布

06-28

### 回答1： Pandas是一个Python库，用于数据处理和分析。在数据分析中，预处理是非常重要的一步，因为它可以帮助我们清洗和转换数据，使其更适合进行分析。Pandas提供了一些强大的预处理功能，包括数据清洗、数据转换、数据重塑和数据合并等。在使用Pandas进行数据分析时，预处理是必不可少的一步。 ### 回答2：在数据分析中，数据的预处理是一个必要的过程。它的主要目的是清洗数据，准备数据，以便后续分析。在Python中，pandas是一种广泛使用的数据处理库。pandas可以通过其高效的数据结构和操作方法来清洗和处理数据。在本文中，将介绍pandas预处理的一些常见技术。一、读取数据在pandas中，使用read_csv()函数读取CSV格式的数据文件，read_excel()函数读取Excel格式的数据文件。它们都有很多选项，可以根据具体文件的格式进行设置。二、查看数据在pandas中，使用以下函数来查看数据： 1. head() - 显示数据框的前几行； 2. tail() - 显示数据框的后几行； 3. columns - 显示数据框的列名； 4. shape - 显示数据框的行列数； 5. info() - 显示数据框的基本信息，包括每列的名称、非空值数量和数据类型。三、数据清洗在数据清洗中，有以下一些常见的技术： 1. 删除重复行：使用drop_duplicates()函数； 2. 替换空值：使用fillna()函数； 3. 删除空值：使用dropna()函数； 4. 更改数据类型：使用astype()函数。四、数据准备在数据准备中，有以下一些常见的技术： 1. 数据合并：使用merge()函数； 2. 数据筛选：使用loc()函数或者iloc()函数； 3. 数据分组：使用groupby()函数； 4. 数据排序：使用sort_values()函数。五、数据分析在数据分析中，有以下一些常见的技术： 1. 数据聚合：使用agg()函数； 2. 统计描述：使用describe()函数； 3. 数据可视化：使用matplotlib或者seaborn库。综上所述，pandas预处理是数据分析中必不可少的一步。通过使用pandas提供的函数和方法，可以方便地清理和处理数据，使其更容易被分析。 ### 回答3： Pandas是Python中最强大的数据处理库之一，它提供了DataFrame和Series这两种数据结构，可以快速便捷地处理数据。在数据分析过程中，我们往往需要先对数据进行预处理，以便后续的分析。Pandas提供了一系列的方法和函数，可以帮助我们进行数据的预处理。首先，在进行数据分析之前，我们需要了解自己所面对的数据类型和数据结构。Pandas中的DataFrame结构就是类似于表格的结构，每一行代表一个样本，每一列代表一个属性。Series则是一维的数组结构。通过pandas.read_csv()，我们可以读取CSV格式的数据，并转化为DataFrame结构。接下来，我们要对数据进行一些基本的处理，例如数据清洗、数据去重、缺失值处理、异常值处理等。在数据清洗过程中，我们往往需要对数据进行一些特殊的处理，例如字符串的分割、合并、替换等操作，Pandas提供了一系列能够对文本进行操作的函数。在数据去重方面，我们可以使用drop_duplicates()函数，它可以去除DataFrame中的重复记录。在处理缺失值时，Pandas提供了一系列的函数，如fillna()函数、dropna()函数，可以方便地将NaN值变为其他有意义的值，或者删除缺失值的行或列。在异常值处理方面，我们可以使用isoutlier()函数来找到数据中的异常值，并进行处理。在数据预处理完成后，我们可以对数据进行一些统计分析，例如计算小计、计算总计、分位数、极差、方差、标准差等统计指标。我们可以使用describe()函数来获得数据的统计描述，还可以使用groupby()函数来对数据分组，使用agg()函数对每组进行计算统计指标。此外，我们还可以对数据进行排序、丢弃、合并等操作。总之，Pandas是一个非常强大的Python库，可以轻松处理数据预处理和数据处理方面的任务。Pandas作为数据分析和数据处理的基础库，使用熟练后可以在数据分析中发挥更大的作用。