《动手学数据分析》第二章学习笔记

最新推荐文章于 2024-07-25 22:24:14 发布

sxccc_

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量199

点赞数

文章标签：数据分析学习 pandas

本文链接：https://blog.csdn.net/sxccc_/article/details/126881538

版权

《动手学数据分析》第二章学习笔记

1.缺失值观察与处理

查看数据信息

df.info()

缺失值统计

df.isnull().sum()

df.isnull().any()

缺失值处理

isnull()用来找出缺失值的位置，返回一个bull类型的掩码标记缺失值
notnull()是找出非空值并用bull值进行标记
dropna()就是字面意思，即丢掉缺失值

df.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)

fillna()的作用是填充缺失值

2.重复值观察与处理

查看重复值

df.duplicated()

处理重复值

duplicated()：用于标记是否有重复值

duplicated(subset=None, keep=“first”)

drop_duplicates()：用于删除重复值

drop_duplicated(subset=None, keep=“first”, inplace=False)

3.特征观察与处理

离散化处理

实现连续数据离散化处理主要基于两个函数，pandas.cut 和 pandas.qcut，前者根据指定分界点对连续数据进行分箱处理，后者则可以根据指定箱子的数量对连续数据进行等宽分箱处理，所谓等宽指的是每个箱子中的数据量是相同的

eg：将“年龄”分为5个区间

df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = [1,2,3,4,5])
df.head()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sxccc_

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《动手学数据分析》第二章学习笔记

《动手学数据分析》第二章第一节笔记
复制链接

扫一扫

python中plot函数kindkde_《利用Python进行数据分析》学习笔记之Matplotlib : pandas中的绘图函数...

weixin_39543773的博客

02-03

2656

Pandas有许多能够利用DataFrame对象数据组织特点来创建标准图表的高级绘图方法，本文主要介绍的是pandas中的绘图函数。#coding:utf-8import matplotlib.pyplot as pltimport pandas as pdimport numpy as npfrom pandas import DataFrame,Series1. 线形图df.plot( kin...

数据分析三、pandas库分组聚合与数据可视化

随风的博客

08-17

1757

分组聚合与数据可视化一、分组聚合1.1、单层分组聚合：df.groupby(by)['列索引'].mean()。1.1.1单层分组：df.groupby(by)1.1.2聚合操作:['列索引'].mean()1.2、多层分组聚合:df.groupby(by)['列索引'].mean()。三级目录二、数据可视化一级目录二级目录一、分组聚合 1.1分组聚合操作的定义分组聚合操作指的是按照某项规则对数据进行分组，接着对分完组的数据执行总结性统计的操作（比如求和、求均值）。根据其分组方式的不同可以分为单层分组

参与评论您还未登录，请先登录后发表或查看评论

【matplotlib】plot()kind参数表

bingbangx的博客

06-29

4050

在这里我介绍一下plot方法的函数的使用。 Series.plot方法的函数：参数说明 label 用于图例的标签 ax 要在其上进行绘制的matplotlib subplot对象。如果没有设置，则使用当前matplotlib subplot style 将要传给matplotlib的风格字符串(for example: ‘ko–’) alpha 图表的填充不透明(0-1) kind 可以是’line’, ‘bar’, ‘barh’, ‘kde’ logy 在...

pandas中的绘图函数

热门推荐

hustqb的博客

01-13

3万+

摘自《利用python进行数据分析》——Wes McKinney 在pandas中，我们有行标签、列标签以及分组信息(可能有)。也就是说，要制作一张完整的图表，原本需要一大堆的matplotlib代码，现在只需一两条简洁的语句就可以了。pandas有许多能够利用DataFrame对象数据组织特点来创建标准图标的高级绘图方法(这些函数的数量还在不断增加1)。线型图import pandas as p

pandas中的绘图函数（什么是kde）

自渡

11-23

1万+

不难看出，matplotlib实际上是一种比较低级的工具。要组装一张图表，我们得用它的各种基础组件才行：数据展示（即图表类型：线型图、柱状图、盒形图、散布图、等值线图等）、图例、标题、刻度标签以及其他注解型信息。这是因为要根据数据制作一张完整图表通常都需要用到多个对象。在pandas中，我们有行标签、列标签以及分组信息（可能有）。这也就是说，要制作一张完整的图表，原本需要一大堆的matplotli...

动手学数据分析第二章学习笔记

weixin_45536410的博客

08-19

174

动手学深度学习第二章第一节数据清洗及特征处理查看数据集中缺失值数据集中缺失值的处理数据集中重复值的处理特征观察与处理第一节数据清洗及特征处理查看数据集中缺失值用isnull()或者isna()，或者用info()可以查看数据集中非空数据个数这里有一些坑： numpy中的np.nan是float格式，并且不能判断两个np.nan数相等 None是NoneType，np.nan is None的结果也会是False numpy模块的isnan方法仅支持对数值进行判断，因此传入的如果是字符串类型会报

动手学数据分析第二章笔记2

weixin_45536410的博客

08-21

动手学深度学习第二章第二节数据合并pandas.mergepandas.concatcombine_first()数据聚合数据合并 pandas常用的数据合并的方法： pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来，就是数据库的join操作。 pandas.concat可以沿着一条轴将多个对象堆叠到一起实例方法combine_first可以将重复数据拼接在一起，用一个对象中的值填充另一个对象中的缺失值。 pandas.merge merge是数据库风格的合并操作，常

人人学IoT———第二章学习笔记

01-06

第二个挑战：标准不同一、集成困难终端传感器厂家多，通信协议众多、标准不统一、集成困难等第三个挑战：网络连接复杂物联网环境复杂、网络类型多、厂家开发终端需要适配很多协议、厂家进入物联网领域门槛较高等 ...

数据分析方法论学习笔记.md

05-24

数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法论.md数据分析方法...

Python数据分析实战内利著学习笔记

12-21

Python数据分析实战内利著学习笔记 Python数据分析实战内利著学习笔记 Python数据分析实战内利著学习笔记 Python数据分析实战内利著学习笔记 Python数据分析实战内利著学习笔记 Python数据分析实战内利著...

动手学深度学习笔记二

01-06

二.梯度消失、梯度爆炸可以理解为在夏季的物品推荐系统与冬季相比，时间或者说季节发生了变化，导致了夏季推荐圣诞礼物的不合理的现象，这个现象是由于协变量时间发生了变化造成的。三.循环神经网络进阶实现深层...

学习笔记 | 《从零开始学python数据分析》| 第3章 pandas入门和实战1

12-22

第3章 pandas入门和实战 3.1 pandas数据结构 pandas有两个基本的数据结构：Series和DataFrame。 3.1.1 创建Series数据 Series数据结构类似于一维数组，但它是由一组数据(各种Numpy数据类型)和一组对应的索引组成。...

计算机毕业设计Django+Vue.js知识图谱音乐推荐系统音乐爬虫可视化音乐数据分析 大数据毕设大数据毕业设计机器学习深度学习人工智能

从业计算机毕业设计10年，打算用一年时间分享10年毕设经验！

07-23

502

计算机毕业设计Django+Vue.js知识图谱音乐推荐系统音乐爬虫可视化音乐数据分析 大数据毕设大数据毕业设计机器学习深度学习人工智能

【CPS出版】2024年智能计算与数据分析国际学术会议（ICDA 2024，9月6日-8）

Jurio的博客

07-25

841

ICDA 2024，2024年智能计算与数据分析国际学术会议，2024 International Conference on Intelligent Computing and Data Analytics

每天一个数据分析题（四百四十八）- 企业数据

shiguangre的博客

07-24

344

内容涵盖Python，SQL，统计学，数据分析理论，深度学习，可视化，机器学习，Spark八个方向的专项练习题库，数据分析从业者刷题必备神器！业务数据中因为某些原因可能存在异常值，现要通过可视化的方式查找某字段数据中的异常值，优先使用以下哪种图形？A. 箱形图。B. 甘特图。C. 雷达图。D. K线图。

学习笔记：《用Python进行数据分析》之Python基础

小火柴

07-24

929

当在Python中创建变量（或名字），你就在等号右边创建了一个对这个变量的引用。考虑一个整数列表，假设将a赋值给一个新变量b，在有些方法中，这个赋值会将数据[1, 2, 3]也复制。在Python中，a和b实际上是同一个对象，即原有列表[1, 2, 3]。Python中的大多数对象，比如列表、字典、NumPy数组，和用户定义的类型（类），都是可变的，意味着这些对象或包含的值可以被修改。这段脚本运行在空的命名空间（没有import和其它定义的变量），因此结果和普通的运行方式。在变量前后使用问号？

Linux：基础命令学习

qq_55038440的博客

07-20

1510

实例：-F根据文件类型在列出的文件名称后加一符号。实例： -R 递归显示目录中的所有文件和子目录。. 开头的隐藏文件也会列出。可执行文件则加 "*"，用于显示目录文件信息。

AvaloniaUI的学习