初学4:
import pandas as pd
import numpy as np
#注:使用方法与np.random.randn()函数相同
作用:
通过本函数可以返回一个或一组服从“0~1”均匀分布的随机样本值。
#
'饼图绘制'
#对生成的一列随机数series数据类型绘制饼图
q=3*np.random.rand(4)
print(q)
df1=pd.Series(3*np.random.rand(4),index=['a','b','c','d'],name='English')
df1.plot.pie(figsize=(6,6))
'柱状图绘制'
df2=pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
df2.plot.bar()
'箱线图绘制'
df3=pd.DataFrame(np.random.rand(10,5),columns=['A','B','C','D','E'])
df3.plot.box()
'散点图绘制'
#四列随机数绘制散点图
df4=pd.DataFrame(np.random.rand(50,4),columns=['a','b','c','d'])
df4.plot.scatter(x='a',y='b')
任务2.3课后作业(二)3:随机生成一个五列十行的dataframe的数据类型,行列索引自定义,绘制出对应的柱状图、散点图,以及在查询官网学习绘制一个课程未讲解(即除柱状图、饼图、散点图、箱线图以外的图形)的数据分析的图形
import numpy as np
import pandas as pd
df1=pd.DataFrame(np.random.rand(10,5),\
index=(['A','B','C','D','E','F','G','H','I','J']),\
columns=(['a','b','c','d','e']) )
print(df1)
df1.plot.bar() #生成柱状图
df1.plot.scatter(x='a',y='b') #生成散点图
df1.plot.area() #生成面积图
df2=pd.DataFrame(10*np.random.rand(100,5),\
columns=(['q','w','e','r','t']) )
df2.plot.hexbin(x='q', y='w',gridsize=12) #六边形分箱图
''' DataFrame.plot.hexbin() 创建六边形图。
当数据过于密集而无法单独绘制每个点,则六边形图可以替代散点图。
gridsize:控制x方向上的六边形数量,默认为100,较大的网格尺寸意味着更多更小的箱体。
'''
value_counts 函数的使用
import pandas as pd
data=pd.DataFrame(columns=['a','b'],data=[[2,2],[2,2],[2,],[3,8]])
print(data['b'].value_counts())
结果:
runfile(‘C:/Users/hp/.spyder-py3/temp.py’, wdir=‘C:/Users/hp/.spyder-py3’)
2.0 2
8.0 1
Name: b, dtype: int64
左边表示种类
右边表示出现的次数
实验任务15:
#导入pandas包重命名为pd
import pandas as pd
import numpy as np
#1:读取数据集
off_train=pd.read_csv('ccf_offline_stage1_train.csv')
#2:共有多少条记录
record_count=off_train.shape[0]
''' .shape 功能:读取矩阵的长度, XX.shape[0] 读取矩阵第一维度(行)的长度
XX.shape[1] 读取矩阵第二维度(列)的长度
'''
#3:共有多少种不同的优惠券
coupon_count=len(off_train['Coupon_id'].value_counts())
#4:共有多少个用户
user_count=len(off_train['User_id'].value_counts())
''' value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
normalize=Ture: 以百分比的形式出现
sort 是否对结果进行排序
ascending:升序
dropna:默认删除na(not a number)的值
'''
#5:共有多少个商家
merchant_count=len(off_train['Merchant_id'].value_counts())
#6:最早领券时间
min_received=str(int(off_train['Date_received'].min()))
#7:最晚领券时间
max_received=str(int(off_train['Date_received'].max()))
#8:最早消费时间
min_date=str(int(off_train['Date'].min()))
#8:最晚消费时间
max_date=str(int(off_train['Date'].max()))
4:数据观察
4.1:软件安装:
直接在conda promot 输入:pip install pyecharts
再回车 就ok
Task15&task16 相关函数解释
.shape[] //获取矩阵的函数或者列数
.count() //获取元素的个数 例如
.value_count()// 获取元素的种类
.fillna(a,inplace='True')
//将表中的NULL用a替代,inplace='Ture/False'是否在原本上替换
//,还是生成副本,在副本上替换
.fillna(method = 'bflii'/'backfill':用下一个非缺失值填充该缺失值)
.fillna(method = 'ffill'/'pad':用前一个非缺失值去填充该缺失值)
pd.to_datetime(输入,format