Pandas 学习
樱缘之梦
这个作者很懒,什么都没留下…
展开
-
Pandas使用小技巧
在进行缺失值筛选时,可以对缺失严重的行和列进行删除,首先进行缺失值的确定。1.缺失值的列和每列的缺失情况#对每列的缺失值进行统计,并逆序排列data.isnull.sum().sort_values(ascending=False)2.缺失值的行和每行的缺失情况#对每行的缺失值进行统计,并逆序排列data.isnull.sum(axis=1).sort_values(ascending=False)3.获取以列为单位的指定缺失值个数的列名#num是阈值,可以设定满足条件的数原创 2021-05-25 10:49:02 · 417 阅读 · 0 评论 -
Python学习——常见的字符串匹配
在处理字符串的时候,经常会有需要提取和替换的情况,记录自己常用的方法。这个涉及正则表达式的用法,因为我是在Series的str属性在用,方法是同宗,存在略微格式的不一致。1、替换str的中括号Series.str.replace('[\\[\\]]','')2.提取两个字符串之间的字符Series.str.findall("a(.+?)b")...原创 2021-04-25 11:57:49 · 682 阅读 · 0 评论 -
Excel——多个Sheet页合并成一个
import xlrdimport pandas as pdfrom pandas import DataFramefrom openpyxl import load_workbookexcel_name = '文件路径/文件名.xlsx' #表格地址+表格名wb = xlrd.open_workbook(excel_name) # 获取workbook中所有的表格sheets = wb.sheet_names()# print(sheets)# 循环遍历所有sheeta...原创 2020-10-22 09:16:43 · 3434 阅读 · 0 评论 -
Datawha组队——Pandas(下)综合练习(打卡)
import pandas as pdimport numpy as npimport missingno as msnoimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号#读取数据df = pd.read_csv('端午粽子数据.csv')df.columns = ...原创 2020-07-01 17:54:44 · 220 阅读 · 0 评论 -
Datawhale组队-Pandas(下)时序数据(打卡)
Pandas可以处理任何领域的时序数据(time series),一、时序的创建1.四类时间变量名称 描述 元素类型 创建方式 Datetimes(时间点/时刻) 描述特定日期或时间点 Timestamp to_datetime或date_range Timespans(时间段/时期) 由时间点定义的一段时期 Period Period或period_range Dateoffsets(相对时间差) .原创 2020-06-29 11:30:03 · 305 阅读 · 0 评论 -
Datawhale组队-Pandas(下)分类数据(打卡)
Categoricals是pandas的一种数据类型,对应于统计学中的Categorical variables(分类变量),分类变量是有限且固定的可能值,例如:gender(性别)、血型、国籍等,与统计学的Categorical variables相比,Categorical类型的数据可以具有特定的顺序,例如:按程度来设定:‘强烈同意’与‘同意’,‘首次观察’与‘二次观察’,但是不能按数值来进行排序操作。Categorical data的值要么是预设好的类型中的某一个,要么是空值(np.nan)。顺序原创 2020-06-27 20:56:50 · 360 阅读 · 0 评论 -
Datawhale组队-Pandas(下)文本数据(打卡)
一、string类型的性质1.string和object的区别string类型和object不同之处有三:字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型 某些Series方法不能在string上使用,例如:Series.str.decode(),因为存储的字符串而不是字节 string类型在缺失值存储或运算时,类型会广播为pd.NA,而不是浮点型np.nan2.st...原创 2020-06-26 22:56:50 · 297 阅读 · 0 评论 -
Datawhale组队-pandas(上)基础(自学)
Pandas是Python的核心数据分析支持库,提供了快速灵活、明确的数据节后,旨在简单、直观地处理关系型、标记型数据。Pandas的目标是称为Python数据分析时间与实战的必备高级工具,其长远目标是称为最强大、最灵活,可以支持任何语言的开源数据。Pandas适用于处理以下类型的数据:与SQL或Excel表类似的,含异构列的表格数据; 有序和无序(非固定频率)的时间序列数据 带行列标签的矩阵数据,包括同构或异构数据 任意其它形式的观测、统计数据集,数据转入Pandas数据结构时不必事先标记。原创 2020-06-23 13:30:08 · 268 阅读 · 0 评论 -
DataWhale组队-Pandas(下)缺失数据(打卡)
1.缺失值概要数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确,以下从缺失值产生的原因及影响扥方面展开分析。(1)缺失值产生的原因1)有些信息暂时无法获取,或者获取信息的代价太大;2)有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写或对数据理解错误等一些人为因素而遗漏,也可能是由于数据采集设置的故障、存储介质的故障、传输媒体的故障灯非人为原因而丢失;3)属性值不存在。在某些情况下,缺失值并不意味着数据有错误。对一些对象来说某些属性是不存在的,如原创 2020-06-21 18:10:46 · 401 阅读 · 0 评论