数据分析
九成N
这个作者很懒,什么都没留下…
展开
-
pandas常用函数,完美解决数据处理
数据分析 ,数据建模。数据处理都是及其重要的一个步骤,,至关重要。总结一下 “Pandas数据处理” 几个方面重要的知识导⼊数据导出数据查看数据数据选取数据处理数据分组和排序数据合并在使用之前,需要导入pandas库import pandas as pd导⼊数据pd.DataFrame() # 自己创建数据框,用于练习pd.read_csv(filename) # 从CSV⽂件导⼊数据pd.read_table(filename) # 从限定分隔符的⽂本⽂件导⼊数据p转载 2021-04-14 18:11:48 · 152 阅读 · 0 评论 -
numpy加载包含中文的csv文件报错的解决方法
import numpy as npfilename = ‘./data/51job.csv’arr = np.loadtxt(filename,delimiter=’,’,skiprows=1,usecols=[0,1,2,3],dtype=str,)print(arr)用numpy加载包含中文的csv文件会报错:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x80 in position 36: illegal multibyt原创 2020-09-27 18:00:09 · 853 阅读 · 0 评论 -
pandas中to_datetime()时间处理
pandas.to_datetime(arg,errors =‘raise’,utc = None,format = None,unit = None )pandas通常用于处理成组日期,不管这些日期是DataFrame的轴索引还是列,to_datetime方法可以解析多种不同的日期表示形式。(1)获取指定的时间和日期例如:df[’'date]数据类型为“object”,通过pd.to_datetime将该列数据转换为时间类型,即datetime。df[‘date_formatted’]=pd.t原创 2020-09-27 17:57:12 · 16897 阅读 · 0 评论 -
matplotlib处理日期坐标轴
当日期数据作为图表的坐标轴时通常需要特殊处理,尤其是显示股票数据信息的时候matplotlib下的dates模块主要用于处理日期引用库from matplotlib.dates import DateFormatter, WeekdayLocator, DayLocator, MONDAY,YEARLY获取每月数据monthdays = MonthLocator()获取每个周一数据mondays = WeekdayLocator(MONDAY) # 主要刻度获取每日数据原创 2020-09-27 17:51:06 · 1023 阅读 · 0 评论 -
数据集随机抽取样本
需求:有时候我们只需要数据集中的一部分,并不需要全部的数据。解决办法:这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。应用场景:我有10W行数据,每一行都11列的属性。现在,我们只需要随机抽取其中的2W行。DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)参数说明:n是要抽取的行数。(例如n=20000时,抽取其中的2W行)f原创 2020-09-27 17:49:28 · 2584 阅读 · 0 评论 -
matplotlib中设置窗口尺寸大小
在matplotlib一般使用plt.figure来设置窗口尺寸。plt.figure(figsize=(16, 9))但是如果使用plt.subplots,那么这种方法就无效,只能通过subplots自己设置窗口大小。fig, subplot_arr = plt.subplots(3,4,figsize=(18,12))原创 2020-09-18 15:51:32 · 10896 阅读 · 0 评论 -
matplotlib 交互事件
可以通过fig.canvas.mpl_connect()方法绑定事件import matplotlib.pyplot as pltdef on_key_press(event):print(event.key)fig, ax = plt.subplots()fig.canvas.mpl_connect(‘key_press_event’, on_key_press)plt.show()mpl_connect的参数:fig.canvas.draw_idle()重新绘制整个图表fig.can原创 2020-08-25 16:12:04 · 1330 阅读 · 0 评论 -
分位数
分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。常见分类1.二分位数对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数,即二分位数。一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半,那么数集中必有若干值等同于中位数。计算有限个数的数据的二分位数原创 2020-08-25 16:10:13 · 1037 阅读 · 0 评论 -
pandas中对数据库操作
pd.to_sql(self, name, con, schema=None, if_exists=‘fail’, index=True,index_label=None, chunksize=None, dtype=None, method=None)将DataFrame对象中的记录写入到sql数据库name:表的名称con:sqlalchemy创建的数据库的链接if_exists:如果数据库中存在同名表怎么办,‘replace’表示将表原来数据删除放入当前数据;‘append’表示追加;‘fai原创 2020-08-25 09:33:09 · 295 阅读 · 0 评论 -
matplotlib绘图时中文乱码的解决办法
import matplotlib.pyplot as pltfrom pylab import mplmpl.rcParams[‘font.sans-serif’] = [‘SimHei’]mpl.rcParams[‘axes.unicode_minus’]=False #用来正常显示负号本机测试有效的中文字体:SimHei:黑体FangSong:仿宋KaiTi:楷体...原创 2020-08-14 17:55:05 · 175 阅读 · 0 评论