数据分析中的pandas
文章平均质量分 75
文章非常的有价值,之前50人关注的专栏,用于讲解pandas中的数据分析,非常的全面,已经被百度收录,搜索栏第一基本就是这个专栏的文章
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
KJ.JK
正在更新2024年华为OD最新E卷,收录历年真题,提供在线OJ刷题学习,代码仅供学习参考,题库均搜集于互联网
展开
-
数据分析中的pandas文章目录汇总
数据分析中的pandas本专栏主要通过分享pandas中各种使用技巧,,将使用Python语言进行代码解析,帮助数据分析语言小白打好程序基础,已帮助30+小白。原创 2022-11-12 20:14:51 · 15662 阅读 · 1 评论 -
Pandas中的滑动窗口—rolling()函数方法
在时间序列中,还有另外一个比较重要的概念—滑动窗口。滑动窗口指的是根据指定的单位长度来框住时间序列,从而计算框内的统计指标。相当于一个长度指定的滑块在刻度尺上面滑动,每滑动一个单位即可反馈滑块内的数据。 Pandas中提供了一个窗口方法rollin原创 2020-12-09 10:19:40 · 18137 阅读 · 0 评论 -
Matplotlib本地保存图形—savefig()方法
要想保存当前生成的图表,可以调用savefig()函数进行保存。savefig()函数的语法格式如下: savefig(fname,dpi=None,facecolor=“w”,edgecolor=“w”,orientation=“portrait”,papertype=None,format=原创 2020-12-03 08:18:22 · 60354 阅读 · 7 评论 -
pandas中的to_excel方法解析
Pandas中提供了对Excel文件进行写操作,方法为to_excel()to_excel()方法的功能是将DataFrame对象写入到Excel工作表中,语法格式如下:to_excel(excel_writer,sheet_name=‘sheet1’,na_rep=’ ’ ,float_format=None,columns=None,header=True,index=True,index_label=None,startrow=0,startcol=0,engine=None,merge_cells原创 2020-11-12 17:52:49 · 48829 阅读 · 6 评论 -
pandans中读写数据库方法
读写数据库 大多数情况下,海量的数据是使用数据库进行数据库进行存储的,这主要是依赖于数据库的数据结构化、数据共享性、独立性等特点。因此,在实际生产环境中,绝大多数的数据都是存储在数据库中。pandas支持MySQL、Oracle、SQLite等主流数据库的读写操作。 为了高效地对数据库中的数据进行读取,这里需要引入SQLAlchemy。SQLAlchemy是使用Python编写的一款开源软件,它提供的SQ原创 2020-11-13 23:03:12 · 12531 阅读 · 2 评论 -
爬虫爬取网页的东西(图片,文字等)
import requestsfrom bs4 import BeautifulSoup# #获取图片的网址req=requests.get("https://blog.csdn.net/a1439775520/article/details/95373610")#获取网址的htmlhtml=req.text#使用beautifulsoup接受这个htmlsoup=BeautifulSoup(html,"html.parser")#加入count是为了有多张图片,防止名字相同被替换.原创 2022-04-10 00:02:00 · 1013 阅读 · 0 评论 -
Pandas中的重采样方法—resample()
Pandas中的resample()是一个对常规时间序列数据重新采样和频率转换的便捷的方法,可以对原样本重新处理,其语法格式如下:resample(rule,how=None,axis=0,fill_method=None,closed=None,label=None,convention=“start”,kind=None,loffset=None,limit=None,base=0,on=None,level=None原创 2020-12-08 11:10:03 · 6209 阅读 · 0 评论 -
Pandas中的时间序列的频率、偏移量
通常,默认生成的时间序列是按天计算的,即频率为"D"。"D"是一个基础频率,通过用一个字符串的别名表示,比如"D"是"day"的别名。Pandas中的频率是由一个基础频率和一个乘数组成的,比如,"5D"表示每5天。 接下来,通过一张表来列举时间序列的基础频率...原创 2020-12-07 08:47:18 · 4390 阅读 · 1 评论 -
Pandas中时间序列的移动—shift()函数方法
移动是指沿着时间轴方向将数据进行前移或后移。Pandas对象中提供了一个shift()方法,用来前移或后移数据,但索引保持不变。shift()方法语法格式如下:shift(periods=1,freq=None,axis=0)部分参数含义如下:periods:表示移动的幅度,可以为正数,也可以为负数,默认值是1,代表移动一次。freq:如果这个参数存在,那么会按照参数值移动时间戳索引,而数据值原创 2020-12-07 08:20:42 · 6039 阅读 · 1 评论 -
Pandas中的时期的频率转换—asfreq()方法
在工作中统计数据时,可能会遇到类似于这样的问题,比如将某年的报告转换为季报告或月报告。为了解决这个问题,Pandas中提供了一个asfreq()方法来转换时期的频率,比如把某年转换为某月。 asfreq()方法的语法格式如下:asfreq(freq,method=None,normalize=False,fill_value=None)部分参数的含义如下:freq:表示计时单位,可原创 2020-12-06 19:54:24 · 5555 阅读 · 0 评论 -
Pandas中创建固定频率的时间序列—date_range()方法解析
Pandas中提供了一个date_range()函数,主要用于生成一个具有固定频率的DatetimeIndex对象,该函数的语法格式如下: pandas.date_range(start=None,end=None,periods=None,freq=None,tz=None,normalize=False,name=None,closed=None,**kwargs)上述部原创 2020-12-06 19:52:19 · 5717 阅读 · 1 评论 -
Pandas中通过时间戳索引选取子集和 truncate()方法
DatetimeIndex的主要作用之一是用作Pandas对象的索引,使用它作为索引除了拥有普通索引对象的所有基本功能外,还拥有一些专门对时间序列数据操作的高级用法,比如根据日期的年份或月份获取数据,下面通过代码演示。 创建一个时间序列类型的Series对象,代码如下。原创 2020-12-05 12:53:25 · 4202 阅读 · 0 评论 -
Pandas中的创建时间序列
对于时间序列数据而言,必然少不了时间戳这一关键元素。Pandas中,时间戳使用Timestamp(Series派生的子类)对象表示,该对象与datetime有高度兼容性,可以直接通过to_datetime()函数将datetime转换为TimeStamp对象,例子如下:...原创 2020-12-05 08:53:59 · 5935 阅读 · 1 评论 -
Seaborn中类别内的数据分布—绘制箱形图 boxplot() 和提琴图 violinplot()
要想查看各个分类中的数据分布,显而易见,散点图是不满足需求的,原因是它不够直观。针对这种情况,我们可以绘制如下两种图形进行查看:箱形图:利用箱形图可以提供有关数据分散情况的信息,可以很直观地查看数据的四分位分布(1/4分位,中位数,3/4分位以及四分位距)。提琴图 :箱形图与核密度图的结合,它可以展示任意位置的密度,可以很直观地看到哪些位置的密度较高。一、绘制箱形图 原创 2020-12-05 08:53:03 · 4901 阅读 · 0 评论 -
Seaborn中类别内的统计估计—绘制条形图 barplot() 和点图 pointplot()
要想查看每个分类的集中趋势,则可以使用条形图和点图进行展示。Seaborn库中用于绘制这两种图表的具体函数如下:- barplot()函数:绘制条形图。- pointplot()函数:绘制点图。一、绘制条形图 最常用的查看集中趋势的图形就是条形图。默认情况下,barplot()函数会在整个原创 2020-12-04 12:58:41 · 5551 阅读 · 1 评论 -
Seaborn中的分类数据类别散点图—swarmplot()与stripplot()函数方法
类别散点图 通过stripplot()函数可以画一个散点图, stripplot()函数的语法格式如下:seaborn.stripplot(x=None,y=None,hue=None,data=None,order=None,hue_order=None,jitter=False,dodge=False,orient=None,color=None,palette=原创 2020-12-04 11:20:43 · 3495 阅读 · 0 评论 -
Bokeh—通过plotting绘制图形
plotting是以构建视觉符号为核心的接口,可以结合各种视觉元素(例如,点、圆、线等其他元素)和工具(例如,缩放、保存、重置等其他工具)创建可视化图形。使用bokeh.plotting创建图表的基本步骤如下:导入Bokeh库中用到的一些方法或函数。准备数据,这些数据既可以是普通的Python列表,也可以是NumPy数组或Series对象。选择输出方式,一张是使用out原创 2020-12-03 22:20:53 · 4518 阅读 · 0 评论 -
Seaborn中的绘制单变量分布—distplot()函数方法
当处理一组数组时,通常先要做的就是了解变量是如何分布的。对于单变量的数据来说,采用直方图或核密度曲线是个不错的选择,对于双变量来说,可采用多面板图形展现,比如散点图、二维直方图、核密度估计图形等。针对这种情况,Seaborn库提供了对单变量和双变量分布的绘制函数,如displot()函数、jointplot()函数,下面介绍displot()函数的使用,具体如下。原创 2020-12-03 08:17:52 · 8535 阅读 · 3 评论 -
Seaborn绘制成对的双变量分布—pairplot()函数方法
要想在数据集中绘制多个成对的双变量分布,则可以使用pairplot()函数实现,该函数会创建一个坐标轴矩阵,并且显示DataFrame对象中每对变量对的关系。另外,pairplot()函数也可以绘制每个变量在对角轴上的单变量分布。接下来,通过sns.pairplot()函数绘制数据集变量间关系的图形,代码如下:import seaborn as sns #绘制成对的双变量分布da原创 2020-12-02 09:52:09 · 7080 阅读 · 1 评论 -
Seaborn中的绘制双变量分布—jointplot()函数方法
两个变量的二元分布可视化也很有用。在Seaborn中最简单的方法是使用jointplot()函数,该函数可以创建一个多面板图形,比如散点图、二维直方图、核密度估计等,以显示两个变量之间的双变量关系及每个变量在单独坐标轴上的单变量分布。 jointplot()函数的语法格式原创 2020-12-02 09:10:56 · 7815 阅读 · 0 评论 -
Matplotlib中的绘制折线图—plot()方法
折线图是一种将数据点按照顺序连接起来的图形。可以看作是将散点图,按照 x 轴坐标顺序连接起来的图形。折线图的主要功能是查看因变量y随着自变量x改变的趋势,最适合用于显示随时间(根据常用比例设置)而变化的连续数据。同时还可以看出数量的差异,增长趋势的变化。 //原创 2020-12-01 09:25:56 · 11660 阅读 · 0 评论 -
Matplotlib中的绘制散点图—scatter()方法
散点图以某个特征为横坐标,以另一个特征为纵坐标,通过散点图的疏密程度和变化趋势表示两个特征的数量关系。常应用于显示若干数据系列中各数值之间的关系,类似于x、y轴判断两变量之间是否存在某种关联。pyplot模块中的scatter()函数用于绘制散点图,其语法格式如下:matplotlib.pyplot.scatter(x,y,s=None,c=None,marker=None,camp=None,norm=None,vmi原创 2020-12-01 09:25:07 · 8110 阅读 · 2 评论 -
Matplotlib中的绘制柱状图—bar()方法
柱状图是一种以长方形的长度为变量表达图形的统计报告图,它由一系列高度不等的纵向条表示数据分布的情况。 pyplot模块中用于绘制柱状图的函数为bar(),其语法格式如下:bar(x,height,width,*,align=“center”,**kwargs)上述函数中的常用参数表示的含义如下:x:表示x轴的原创 2020-11-28 17:22:22 · 9015 阅读 · 0 评论 -
Matplotlib中的绘制直方图—hist()方法
直方图是统计报告图的一种,它由一系列高度不等的纵向条纹或线段来表示数据的分布情况,一般用横轴表示数据所属的类别,用纵轴表示数量或占比。直方图适用于比较数据之间的多少 pyplot模块的hist()函数用于绘制直方图,其语法格式如下:matplotlib.pyplot.h原创 2020-11-28 17:05:13 · 6829 阅读 · 0 评论 -
Matplotlib中的添加各类标签
绘图时可以为图形添加一些标签信息,比如标题、坐标名称、坐标轴的刻度等。pyplot模块中提供了为图形添加标签的函数,常用的如下:1. title() //设置当前轴的标题2. xlabel() //设置当前图形 x原创 2020-11-28 12:59:53 · 19207 阅读 · 2 评论 -
Matplotlib通过add_subplot()函数方法添加和选中子图
要想创建子图,除了使用pyplot模块的函数之外,还可以通过Figure类的add_subplot()方法添加和选中子图,该方法的语法的格式如下:add_subplot(*args,**kwargs) 上述方法中,*args参数表示一个三位数的实数或三个独立的实数,用于描述子图的位置。 比如"a,b,c",其中a和b原创 2020-11-28 10:29:40 · 8905 阅读 · 2 评论 -
Matplotlib通过subplots()函数创建多个子图
如果希望一次性创建一组子图,则可以通过subplots()函数进行实现。subplots()函数的语法格式如下: matplotlib.pyplot.s原创 2020-11-28 10:01:57 · 3335 阅读 · 0 评论 -
Matplotlib通过subplot()函数创建单个子图
很多时候,我们希望在同一个画布上绘制多个图形,而不是在多个画布中绘制多个图形。Figure对象允许划分多个绘图区域,每个绘图区域都是一个Axes对象,它拥有属于自己的坐标系统,被称为子图。要想在画布上创建一个子图,可以通过subplot()函数实现。subplot()函数的语法格式如下: subplot(nrows,ncols,index,**kwargs)上述的部分参数含义原创 2020-11-27 18:23:27 · 4366 阅读 · 0 评论 -
Matplotlib通过figure()函数—创建画布
在pyplot模块中,默认拥有一个Figure()对象,该对象可以理解为一张空白的画布,用于容纳图表的各种组件,比如图例、坐标轴等。 figure()函数的语法格式如下:matplotlib.pyplot.figure(num=None,figsize=None,dpi=None,facecolor=None,edge原创 2020-11-27 12:50:08 · 7536 阅读 · 0 评论 -
Pandas中的Matplotlib—绘制图表
Matplotlib是一个强大的额绘图工具,它可以让开发人员轻松地将数据转换为图形,并提供了多样的输出格式。 要想使用Matplotlib绘制图表,需要先导入绘制图表的模块pyplot,该模块提供了一种类似Matlab的绘图方式,主要用于绘制简单或复杂的图形,代码如下: import matpl原创 2020-11-27 12:11:03 · 7630 阅读 · 0 评论 -
Pandas中的分组级运算
一、数据转换 使用agg()方法进行聚合运算时,返回的数据集的形状(shape)与被分组数据集的形状是不一样的,如果希望保持与原数据集形状相同,那么可以通过transfrom()方法实现。transfrom方法的语法格式如下: transfrom(func,*args,**kwargs)上述方原创 2020-11-26 23:05:30 · 8100 阅读 · 0 评论 -
Pandas中的数据聚合方法
数据聚合,一般都是指对分组中的数据执行某些操作,比如求平均值、求最大值等,并且操作后得到一个结果集,这些实现聚合的操作称为聚合方法。Pandas中提供了用做聚合操作的agg()方法。一、使用内置统计方法聚合数据 前面已经介绍过Pandas的统计方法,比如用于获取最大值和最小值的max()和min(),这些方法常用于简单地聚合分组中的数据。 假设现在我们原创 2020-11-24 13:33:51 · 6770 阅读 · 1 评论 -
Pandas中的数据拆分成组—groupby()方法
在Pandas中,可以通过groupby()方法将数据集按照某些标准划分成原创 2020-11-23 12:58:32 · 9428 阅读 · 0 评论 -
Pandas中的合并重叠数据—combine_first()方法
在处理数据的过程中,当一个DataFrame对象中出现了缺失数据,而对于这些缺失数据,我们希望可以使用其他DataFrame对象中的数据填充,这时可以通过combine_first()方法填充缺失数据。 combine_first()方法的语法格式如下: &n原创 2020-11-23 08:45:09 · 10220 阅读 · 0 评论 -
Pandas中的join()合并数据方法
根据行索引合并数据 join方法能通过索引或指定列来连接DataFrame,语法格式如下: join(other,on=None,how=“left”,lsuffix=" “,rsuffix=” ",sort=False)上述方法参数表示的含义如下:on:用于连接名。 //如果两原创 2020-11-22 23:42:01 · 11856 阅读 · 0 评论 -
Pandas中的轴向堆叠数据—concat()方法
concat()函数可以沿着一条轴将多个对象堆叠,其使用方式类似数据表合并,语法格式如下: Pandas.concat(objs,axis=0,join=“outer”,join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_itegrity=False,sort=None,原创 2020-11-22 21:07:16 · 9009 阅读 · 1 评论 -
Pandas中哑变量处理类别型数据 — get_dummies()方法
哑变量又称虚拟变量、名义变量,从名称上看就知道,它是人为虚设的变量,用来反映某个变量的不同类别。使用哑变量处理类别转换,事实上就是将分类变量转换为哑变量矩阵或指标矩阵,矩阵的值通常为"0"或"1"表示。 在Pandas中,可以使用get_dummies()函数对类别特征进行哑变量处理,语法格式如原创 2020-11-22 13:49:57 · 7337 阅读 · 0 评论 -
Pandas中的离散化连续数据—cut()函数方法
有时候我们会碰到这样的需求,例如,将有关的数据进行离散化(分桶)或拆分为"面元",通俗来说就是将数据分为几个区间。Pandas的cut()函数能够实现离散化操作,语法格式如下: pandas.cut(x,bins,right=True,labels=None,retbins=False,prec原创 2020-11-20 23:49:40 · 3709 阅读 · 0 评论 -
Pandas 中的重命名轴索引——rename()
重命名轴索引是数据分析中比较常见的操作,Pandas中提供了一个rename()方法来重命名个别列索引或行索引的标签或名称,该方法的语法格式如下: rename(mapper=None,index=None,columns=None,axis=None,copy=True原创 2020-11-20 21:36:36 · 17225 阅读 · 2 评论 -
pandas中的主键合并数据merge()函数方法
主键合并类似于关系型数据库的连接方式,它是指根据一个或多个键将不同的DataFrame对象连接起来,大多数是将两个DataFrame对象重叠的列作为合并都是键。pandas中提供了用于主键合并的merge()函数,语法格式如下: pandas.merge(left,right,how=“inner”,on=None,l原创 2020-11-19 20:17:17 · 11919 阅读 · 0 评论