数据分析
文章平均质量分 65
Kwoky
这个作者很懒,什么都没留下…
展开
-
Matplotlib绘制圆环图
饼图的中间如果有一个空白,就是环形图,适合展示分类的占比情况Matplotlib的pie()方法主要用来绘制饼图,我们可以使用参数 wedgeprops 快速绘制环形图。wedgeprops:设置饼图内外边界的属性,如边界线的粗细、颜色等;范例一import matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体:中文乱码问题plt.title("试卷题型分布")...原创 2022-04-29 16:08:06 · 1288 阅读 · 0 评论 -
Matplotlib添加水印
from __future__ import print_functionimport numpy as npimport matplotlib.cbook as cbookimport matplotlib.image as imageimport matplotlib.pyplot as plt# Fixing random state for reproducibilitynp.random.seed(19680801)datafile = cbook.get_sample_data.原创 2021-07-20 13:39:45 · 1999 阅读 · 0 评论 -
matplotlib 中颜色、线型、标记说明
参数color表示颜色颜色可以用颜色缩写代码、标准颜色名称、十六进制颜色值、RGB元组等方式表示。颜色缩写代码这些颜色参数值在图表中是通用的。参数linestyle表示线的风格参数linewidth表示线的宽度,一个浮点数。参数marker表示不同形状的符号,插入到曲线中,以区分曲线的不同设置标记主要参数值如下表所示。 . point marker , pixel marker...原创 2021-07-03 18:29:00 · 3164 阅读 · 0 评论 -
DataFrame.clip()的使用
定义语法DataFrame.clip(lower=None, upper=None, axis=None, inplace=False, *args, **kwargs)功能在输入阈值处修剪值。将边界外的值指定给边界值。阈值可以是奇异值或数组,并且在后一种情况下,剪切在指定轴中以元素方式执行。参数说明lower : float或array_like,默认为None最小阈值。低于此阈值的所有值都将设置为它。upper : float或array_like,默认为None最大原创 2021-06-09 19:11:25 · 3960 阅读 · 0 评论 -
Matplotlib制作动画
Matplotlib制作动画基本原理Matplotlib中动画是帧动画,就是让多幅图连续播放,每一幅图叫做一帧(frame)。只要不断修改图中的曲线,让其连续变化,那么就得到动画效果。Matplotlib动画用Matplotlib制作动画,关键要用到animation这个包中的FuncAnimation。导入方法:from matplotlib import animationFuncAnimation函数FuncAnimation(fig,func,frames,init_fu原创 2021-06-01 22:33:25 · 4008 阅读 · 0 评论 -
Pandas的set_index和reset_index用法
Pandas的set_index和reset_index用法将某一列设置为indexDataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)参数说明:keys:需要设置为索引的列标签drop:默认为True,删除用作新索引的列append:新的index设置之后,是否要删除原来的index。默认为True。inplace:默认为False,是否要用新的Data原创 2021-05-15 11:46:53 · 2050 阅读 · 0 评论 -
matplotlib图表添加文字注释
matplotlib图表添加文字注释plt.annotate(xy,xytext)需要两个坐标:xy:注释的坐标xytext:插入的文本范例import matplotlib.pyplot as pltimport numpy as npplt.rcParams['font.sans-serif'] = ['SimHei']X = np.linspace(0, 2*np.pi,100)# 均匀的划分数据Y = np.sin(X)Y1 = np.cos(X).原创 2021-05-10 15:18:36 · 3318 阅读 · 0 评论 -
matplotlib图形中添加文本
matplotlib图形中添加文本plt.text(x, y, s, fontsize= 15,\verticalalignment="top", horizontalalignment="right"family = "fantasy",color= "r", style = "italic", weight = "light",\bbox = dict(facecolor = "r", alpha = 0.2))...原创 2021-05-02 09:26:10 · 7253 阅读 · 0 评论 -
Matplotlib设置坐标轴日期格式
Matplotlib设置坐标轴日期格式绘制双坐标轴ax2=ax1.twinx()创建了一个独立的Y轴,共享了X轴。双坐标轴!类似的还有twiny()设置坐标轴日期格式需要导入matplotlib下的dates:import matplotlib.dates as mdates使用set_major_locator()方法设置主刻度标签的位置ax.xaxis.set_major_locator(locator)使用set_major_formatter()方法设置.原创 2021-04-24 09:21:41 · 13446 阅读 · 2 评论 -
resample按时间聚合
resample按时间聚合import pandas as pddf = pd.read_csv("./data/applestock_ch07_1.csv")#将df中的date列转为datetimedf.Date = pd.to_datetime(df.Date,format="%Y-%m-%d")#将改好格式的date列,设置为df的indexdf = df.set_index('Date',drop=True)print(df)运行结果:...原创 2021-04-10 22:40:42 · 2403 阅读 · 0 评论 -
Pandas中的Timestamp、Period、Timedelta
时间点TimestampTimestamp是从Python标准库的datetime类继承过来的,表示时间轴上的一个时刻。import pandas as pdimport numpy as npnow=pd.Timestamp.now()print(now)结果:2021-04-02 17:23:08.273922调用.tz_localize()转换为指定时区的当前时间now_shanghai=now.tz_localize("Asia/Shanghai")..原创 2021-04-02 17:39:16 · 2893 阅读 · 0 评论 -
matplotlib绘制热图
matplotlib绘制热图import randomfrom matplotlib import pyplot as pltfrom matplotlib.font_manager import FontPropertiesfont = FontProperties(fname='./simfang.ttf')def draw(): # 定义热图的横纵坐标 xLabel = ['A', 'B', 'C', 'D', 'E'] yLabel = ['1...原创 2021-03-26 09:13:58 · 3012 阅读 · 0 评论 -
matplotlib绘图嵌入html 文件
实现思路html可以以base64代码的形式内嵌图片。具体形式为<img src="data:image/png; base64, iVBORw...。后面的 iVBORw…即为图像的 Base64 编码信息。故而只需将图像转为 base64 代码即可将图像嵌入 HTML 代码字符串中。 matplotlib 的 pyplot.savefig() 函数可以将绘图窗口保存为二进制文件格式。 lxml 库的 etree 模块可以实现解析 HTML 代码并写入 html 文件代码实现impo.原创 2021-03-13 20:15:28 · 4950 阅读 · 1 评论 -
python-docx表格样式
设置表格样式使用style 属性比如:table.style = 'Light List Accent 1'常见的表格样式有:表格样式:Normal Table 第1列 第2列 第3列 表格样式:Table Grid 第1列 第2列 ...原创 2021-01-20 17:13:23 · 3580 阅读 · 1 评论 -
Pandas 数据类型
Pandas 数据类型概览简介在进行数据分析时,确保使用正确的数据类型非常重要,否则可能会得到意想不到的结果或错误。对 Pandas 而言,它会在很多情况下正确地作出数据类型推断,你可以继续进行分析工作,而无需深入思考该主题。尽管 Pandas 工作得很好,但在数据分析过程中的某个时刻,你可能需要将数据从一种类型显式转换为另一种类型。本文将讨论 Pandas 的基本数据类型(即dtypes),它们如何映射到 python 和 numpy 数据类型,以及从一种 Pandas 类型转换为另一..原创 2020-12-13 13:39:42 · 4689 阅读 · 0 评论 -
pandas读取数据文件的问题
用pandas读取数据文件:import pandas as pddf = pd.read_csv('data.csv')df.to_excel('data.xls')提示:This sheet is too large! Your sheet size is: 1495811, 2 Max sheet size is: 1048576, 16384处理方法:分块读取:import pandas as pdchunksize = 10 ** 6for chunk in pd.read原创 2020-11-10 17:08:11 · 3168 阅读 · 0 评论 -
pandas数据库操作
pd.to_sql(self, name, con, schema=None, if_exists='fail', index=True,index_label=None, chunksize=None, dtype=None, method=None)将DataFrame对象中的记录写入到sql数据库name:表的名称con:sqlalchemy创建的数据库的链接if_exists:如果数据库中存在同名表怎么办,‘replace'表示将表原来数据删除放入当前数据;‘append'表示追加;‘fa原创 2020-06-24 17:02:25 · 3423 阅读 · 0 评论 -
概念:分位数
分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。常见分类1.二分位数对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数,即二分位数。一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。计算有限个数的数据的二分位原创 2020-05-22 10:49:44 · 12468 阅读 · 0 评论 -
matplotlib使用技巧
关闭坐标刻度plt.xticks([])保存背景透明图片plt.savefig(img_path,transparent=True)关闭绘图窗口plt.close() will close current instance.plt.close(2) will close figure 2plt.close(plot1) will close figure with insta...原创 2020-04-28 20:33:46 · 2336 阅读 · 0 评论 -
matplotlib交互事件设置
可以通过fig.canvas.mpl_connect()方法绑定事件import matplotlib.pyplot as pltdef on_key_press(event): print(event.key)fig, ax = plt.subplots()fig.canvas.mpl_connect('key_press_event', on_key_press)plt....原创 2020-03-11 13:50:30 · 3284 阅读 · 0 评论 -
python可视化---axhline()函数
函数功能:绘制平行于x轴的水平参考线调用签名:plt.axhline(y=0.0, c="r", ls="--", lw=2)y:水平参考线的出发点c:参考线的线条颜色ls:参考线的线条风格lw:参考线的线条宽度平移性:上面的函数,同样适用于axvline()函数import matplotlib.pyplot as pltimport numpy as npx ...原创 2020-03-10 19:57:14 · 16493 阅读 · 2 评论 -
matplotlib中使用subplots时设置窗口尺寸大小
在matplotlib一般使用plt.figure来设置窗口尺寸。plt.figure(figsize=(16, 9))但是如果使用plt.subplots,那么这种方法就无效,只能通过subplots自己设置窗口大小。fig, subplot_arr= plt.subplots(3,4,figsize=(18,12))...原创 2019-12-03 14:11:29 · 14478 阅读 · 0 评论 -
atplotlib的图例legend的位置
有时默认的图例位置不符合我们的需要,那么我们可以使用下面的代码对 legend 位置进行调整。plt.legend(loc='String or Number', bbox_to_anchor=(num1, num2))第一个参数 loc,可设置的值及含义如下:String Number upper right 1 upper left 2 lower lef...原创 2019-12-02 10:34:21 · 2505 阅读 · 0 评论 -
python pandas str列内置方法
pandas的DataFrame,有时需要处理一些字符串类型列,运用Series.str列内置方法很方便。1.one hot 独热编码,get_dummiesseries=data['列名'].str.get_dummies(sep=',')实现DataFrame中列有多值,且想把这列one hot下2.切分字符串,split()series=data['列名'].str...原创 2019-07-16 17:53:21 · 2474 阅读 · 0 评论 -
数据集随机抽样
需求:有时候我们只需要数据集中的一部分,并不需要全部的数据。解决办法:这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。应用场景:我有10W行数据,每一行都11列的属性。现在,我们只需要随机抽取其中的2W行。DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_st...原创 2019-07-04 11:50:05 · 5719 阅读 · 0 评论 -
matplotlib处理日期坐标轴
当日期数据作为图表的坐标轴时通常需要特殊处理,尤其是显示股票数据信息的时候matplotlib下的dates模块主要用于处理日期引用库from matplotlib.dates import DateFormatter, WeekdayLocator, DayLocator, MONDAY,YEARLY获取每月数据monthdays = MonthLocator()获取每个周一数据...原创 2019-07-02 11:49:15 · 5857 阅读 · 0 评论 -
matplotlib绘图出现中文乱码的解决办法
import matplotlib.pyplot as pltfrom pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei']mpl.rcParams['axes.unicode_minus']=False #用来正常显示负号本机测试有效的中文字体:SimHei:黑体FangSong:仿宋KaiTi:楷体...原创 2019-06-18 08:23:36 · 2493 阅读 · 0 评论 -
pd.to_datetime()
pandas.to_datetime(arg,errors='raise',utc=None,format=None,unit=None)pandas通常用于处理成组日期,不管这些日期是DataFrame的轴索引还是列,to_datetime方法可以解析多种不同的日期表示形式。(1)获取指定的时间和日期例如:df[''date]数据类型为“object”,通过pd.to...原创 2019-06-11 23:26:01 · 107048 阅读 · 1 评论 -
numpy加载包含中文的csv文件报错的解决方案
import numpy as npfilename = './data/51job.csv'arr = np.loadtxt(filename, delimiter=',', skiprows=1, usecols=[0,1,2,3], dtype=str...原创 2018-11-12 20:18:58 · 5365 阅读 · 0 评论