![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Pandas
cc抱富
天下熙熙,皆为利来;天下攘攘,皆为利往
展开
-
转载---详解seaborn中的kdeplot、rugplot、distplot与jointplot
https://www.cnblogs.com/feffery/p/11128113.html简介seaborn是Python中基于matplotlib的具有更多可视化功能和更优美绘图风格的绘图模块,当我们想要探索单个或一对数据分布上的特征时,可以使用到seaborn中内置的若干函数对数据的分布进行多种多样的可视化,本文以jupyter notebook为编辑工具,针对seaborn中的kdeplot、rugplot、distplot和jointplot,对其参数设置和具体用法进行详细介绍。...转载 2020-07-02 14:31:48 · 407 阅读 · 0 评论 -
pandas小技巧------------df.sample随机抽样
https://www.cnblogs.com/webRobot/p/11484648.html1、功能说明有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。函数名及功能DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)[source]输入参数说明参数名称 参数说明 举例说明转载 2020-06-30 19:16:33 · 6003 阅读 · 0 评论 -
pandas小技巧---------.loc、.iloc、.at、.iat的区别,.get_value(x,y)也可以获取某个值
1、.loc与.iloc、.at与.iat区别结论:.loc与.iloc区别:.loc通过标签索引,不能使用位置索引;.iloc通过位置索引,不能通过标签索引.loc与.iloc相同:都可获取多行或多列或多行多列或单个值.at与.iat区别:同.loc与.iloc区别,.at通过标签获取单个值,.iat通过位置索引获取单个值.at与.iat相同:只能获取单个值,不能获取多个值。这也是与.loc和.iloc的区别换句话说,.loc与.iloc函数功能包含.at与.iat的函数功能,.at与.iat原创 2020-06-29 15:30:02 · 3278 阅读 · 0 评论 -
pandas小小项目3------如何简单清洗及分析APPstore数据
import numpy as npimport pandas as pd#读取数据,只分析前7列google_app=pd.read_csv('E:/cai-data/googleplaystore.csv',usecols=(0,1,2,3,4,5,6))print('简单浏览数据--------------')print(google_app.head())#print(google_app.describe())#查看各列的数据个数统计,看是否与缺失值。print(google_ap原创 2020-06-16 15:16:25 · 289 阅读 · 0 评论 -
Pandas小小项目2-----根据10日均线策略买卖股票的股票回溯分析
##########################################################阿里巴巴股票分析#########################################################import numpy as npimport pandas as pd#读取csv数据alibaba=pd.read_csv('E:/cai-data/BABA_stock.csv',index_col='date')#usecols代表加载哪些列原创 2020-06-10 10:44:07 · 766 阅读 · 0 评论 -
pandas小技巧--pandas.rolling()窗口函数
#Pandas代表series和DataFrame均可Pandas.rolling(window, min_periods=None, center=False)window:窗口大小min_periods:最少的不为空的数值,若不满足,该值为Nan。默认与窗口大小相等。如窗口大小为10,那么前9个数据的窗口值为NANcenter:是否以中间值最为窗口标准,默认值为False取窗口后可使用的函数:举例,取前10 的均值print(alibaba[0:20].rolling(10).原创 2020-06-06 10:28:50 · 5439 阅读 · 0 评论 -
Pandas小技巧------Series.str.strip(),通过str属性可访问strip()方法
Series的str属性格式:XXX.str.strip()只有Series可用,即某列。print(alibaba.head())#对于索引列,是Series,Series有str属性alibaba.index=pd.DatetimeIndex(alibaba.index.str.strip("'"))print(alibaba.head())参考Pandas官方文档https://www.pypandas.cn/docs/user_guide/text.html#%E6%8B%8原创 2020-06-03 23:37:20 · 2763 阅读 · 0 评论 -
pandas小项目练习--通过分组简单分析积分落户数据的年龄及分数分布
大部分内容都是取出需要的维度,处理出一个结果,然后可视化积分落户数据分析对于离散型数据,可分组后统计,排序等方式分析对于连续性数据,可使用cut分段后做统计import numpy as npimport matplotlib.pyplot as pltimport pandas as pdluohu_data = pd.read_csv('E:/bj_luohu.csv',index_col='id')luohu_data.describe()#取出需要的2列company_dat原创 2020-06-03 15:22:04 · 726 阅读 · 0 评论 -
pandas使用----用出生日期计算年龄,使用pd.to_datetime()和pd.Timedelta()
用生日数据计算年龄1.1 思路:1.2 代码1.3 说明1.3.1、pd.to_datetime('date')1.3.2、Timedelta函数1.1 思路:(当前时间-生日日期)/ 365天1.2 代码数据源格式:代码#将时间戳格式转换为日期格式print(pd.to_datetime(457348783))#将生日日期转换为统一格式print(pd.to_datetime(luohu_data['birthday'][1:3]))#使用Timedelta参数print(原创 2020-06-01 23:46:44 · 4742 阅读 · 1 评论 -
Pandas基础二重点 -----------分组聚合、agg函数、apply函数(可传参)
一、原创 2020-05-04 23:43:39 · 1528 阅读 · 0 评论 -
pandas基础一 --------属性、缺失数据处理、时间序列
二、DataFrame1、概念DataFrame数据表是一种2维数据结构。其中data、index、columns分别为数据、行索引和列索引2、创建使用字典创建(行索引由index决定,列索引由字典的键决定)dict={ 'Province': ['Guangdong', 'Beijing', 'Qinghai', 'Fujian'], 'pop': [1.3, 2.5...原创 2020-04-23 23:19:34 · 744 阅读 · 0 评论 -
Pandas学习笔记---基础series
一、series对象1、类似一维数组可自定义索引index 参数是可省略的,你可以选择不输入这个参数。如果不带 index 参数,Pandas 会自动用默认 index 进行索引,类似数组,索引值是 [0, …, len(data) - 1]import pandas as pdfrom pandas import Series,DataFrameimport numpy as np...原创 2020-01-07 17:15:29 · 400 阅读 · 0 评论