CSA代码记录

这篇博客记录了初学者使用Python进行数据分析的实践,包括如何利用`value_counts`函数统计数据出现频率,以及完成任务15、16和18中涉及的数据观察和软件安装步骤,如安装`pyecharts`。此外,还提到了绘制柱状图、散点图和其他未在课程中讲解的图形。
摘要由CSDN通过智能技术生成

初学4:

import pandas as pd
import numpy as np
#注:使用方法与np.random.randn()函数相同 
作用: 
通过本函数可以返回一个或一组服从“0~1”均匀分布的随机样本值。
#
'饼图绘制'
#对生成的一列随机数series数据类型绘制饼图
q=3*np.random.rand(4)
print(q)
df1=pd.Series(3*np.random.rand(4),index=['a','b','c','d'],name='English')
df1.plot.pie(figsize=(6,6))
'柱状图绘制'
df2=pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
df2.plot.bar()
'箱线图绘制'
df3=pd.DataFrame(np.random.rand(10,5),columns=['A','B','C','D','E'])
df3.plot.box()
'散点图绘制'
#四列随机数绘制散点图
df4=pd.DataFrame(np.random.rand(50,4),columns=['a','b','c','d'])
df4.plot.scatter(x='a',y='b')

任务2.3课后作业(二)3:随机生成一个五列十行的dataframe的数据类型,行列索引自定义,绘制出对应的柱状图、散点图,以及在查询官网学习绘制一个课程未讲解(即除柱状图、饼图、散点图、箱线图以外的图形)的数据分析的图形

import numpy as np
import pandas as pd
df1=pd.DataFrame(np.random.rand(10,5),\
index=(['A','B','C','D','E','F','G','H','I','J']),\
columns=(['a','b','c','d','e']) )
print(df1)
df1.plot.bar()    #生成柱状图
df1.plot.scatter(x='a',y='b')   #生成散点图
df1.plot.area()         #生成面积图
df2=pd.DataFrame(10*np.random.rand(100,5),\
columns=(['q','w','e','r','t']) )
df2.plot.hexbin(x='q', y='w',gridsize=12) #六边形分箱图
''' DataFrame.plot.hexbin() 创建六边形图。
 当数据过于密集而无法单独绘制每个点,则六边形图可以替代散点图。
 gridsize:控制x方向上的六边形数量,默认为100,较大的网格尺寸意味着更多更小的箱体。
 '''


请添加图片描述

value_counts 函数的使用

import pandas as pd
data=pd.DataFrame(columns=['a','b'],data=[[2,2],[2,2],[2,],[3,8]])
print(data['b'].value_counts())

结果:请添加图片描述
runfile(‘C:/Users/hp/.spyder-py3/temp.py’, wdir=‘C:/Users/hp/.spyder-py3’)
2.0 2
8.0 1
Name: b, dtype: int64
左边表示种类
右边表示出现的次数

实验任务15:

#导入pandas包重命名为pd
import pandas as pd
import numpy as np
#1:读取数据集
off_train=pd.read_csv('ccf_offline_stage1_train.csv')
#2:共有多少条记录
record_count=off_train.shape[0]
''' .shape  功能:读取矩阵的长度, XX.shape[0] 读取矩阵第一维度(行)的长度
XX.shape[1] 读取矩阵第二维度(列)的长度
'''
#3:共有多少种不同的优惠券
coupon_count=len(off_train['Coupon_id'].value_counts())
#4:共有多少个用户
user_count=len(off_train['User_id'].value_counts())
''' value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
normalize=Ture:  以百分比的形式出现
sort 是否对结果进行排序
ascending:升序
dropna:默认删除na(not a number)的值
'''
#5:共有多少个商家
merchant_count=len(off_train['Merchant_id'].value_counts())
#6:最早领券时间
min_received=str(int(off_train['Date_received'].min()))
#7:最晚领券时间
max_received=str(int(off_train['Date_received'].max()))
#8:最早消费时间
min_date=str(int(off_train['Date'].min()))
#8:最晚消费时间
max_date=str(int(off_train['Date'].max()))

4:数据观察

4.1:软件安装:
直接在conda promot 输入:pip install pyecharts
再回车 就ok
在这里插入图片描述

Task15&task16 相关函数解释

.shape[] //获取矩阵的函数或者列数
.count()  //获取元素的个数   例如
.value_count()// 获取元素的种类
.fillna(a,inplace='True')  
 //将表中的NULL用a替代,inplace='Ture/False'是否在原本上替换
 //,还是生成副本,在副本上替换
     .fillna(method = 'bflii'/'backfill':用下一个非缺失值填充该缺失值)
     .fillna(method = 'ffill'/'pad':用前一个非缺失值去填充该缺失值)
pd.to_datetime(输入,format
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值