Python数据分析处理报告--实训小案例

目录

1、实验一

1.1、题目总览

1.2、代码解析

2、实现二

2.1、题目总览

2.2、代码解析

3、实验三

3.1、题目总览

3.2、代码解析

4、实验四

3.1、题目总览

3.2、代码解析


哈喽~今天学习记录的是数据分析实训小案例。

就用这个案例来好好巩固一下 python 数据分析三剑客。

前期准备:

  1. 确认 Jupyter Notebook 环境
  2. 准备实验数据:http://qn.yuanxinghua.love/%E5%AE%9E%E9%AA%8C.zip

1、实验一

1.1、题目总览

1.2、代码解析

1.求3+6+9+12+15= ?

import numpy as np 

s = np.array([3,6,9,12,15])
np.sum(s)

 2.生成范围在0~1、服从均匀分布的10行5列的数组

arry =  np.random.rand(10,5)

print(arry)

 3.创建一个数值范围为0~1,间隔为0.01的数组

arry1 = np.arange(0,1,0.01)

print(arry1)

 4.创建100个服从正态分布的随机数

arry2 = np.random.randn(100)

print(arry2)

 5.对创建的两个数组进行四则运算

arry1 = np.arange(0,1,0.01)
arry2 = np.random.randn(100)

print("加法",arry1 + arry2)
print("减法",arry1 - arry2)
print("乘法",arry1 * arry2)
print("除法",arry1 / arry2)

 6.对创建的随机数进行简单的统计分析

arry2 = np.random.randn(100).reshape(5,20)

 
print('排序\n',np.sort(arry2)) 
print('数据去重\n',np.unique(arry2)) 

print('数组求总和\n',np.sum(arry2))
print('数组纵轴和\n',np.sum(arry2,axis = 0))
print('数组横轴和\n',np.sum(arry2,axis = 1))

print('数组均值\n',np.mean(arry2)) 
print('数组纵轴均值\n',np.mean(arry2,axis = 0)) 
print('数组横轴均值\n',np.mean(arry2,axis = 1)) 


print('数组标准差\n',np.std(arry2)) 
print('数组纵轴标准差\n',np.std(arry2,axis = 0)) 
print('数组横轴标准差\n',np.std(arry2,axis = 1)) 

print('方差\n',np.var(arry2)) 
print('最小值\n',np.min(arry2)) 
print('最大值\n',np.max(arry2)) 

2、实现二

2.1、题目总览

2.2、代码解析

1.读取mtcar数据

import pandas as pd 
data = pd.read_csv("D:\桌面\mtcars.csv")
data

截图:

 2.查看mtcar数据集的元素的个数、维度、大小等信息,输出表的列名

print('所有值为:\n',data.values)
print('索引:\n',data.index)
print('类型为:\n',data.dtypes)
print('元素个数为:',data.size)
print('维度为:',data.ndim)
print('大小为:',data.shape)
print('表的列名:\n',data.columns)

3.使用describe方法对整个mtcar数据集进行描述性统计

data.describe()

 4.计算不同cyl(气缸数)、carb(化油器)对应的mpg(油耗)和hp(马力)的均值

a = data.loc[:,['cyl','carb','mpg','hp']]
b = a.groupby(['cyl','carb']).mean()
b

 5.输出mpg和hp前5个元素

c = data.loc[:4,['mpg','hp']]
c

 6.输出mtcar数据的前3行元素

d = data[:][:3]
d

 7.使用head()和tail()方法输出前后5行数据

print('前5行元素为:\n',data.head())
print('==================')
print('后5行元素为:\n',data.tail())

 8.用loc和iloc分别提取第1列和第3列的数据

print(data.loc[:,['mpg','disp']])
print('**---------------***-------------**')
print(data.iloc[:,[1,3]])

 9.取出列名为mpg、hp,行名为2,3,4的数据

e = data.loc[2:4,['mpg','hp']]   # loc[索引/条件,名称/]
print(e)

 10.取出列位置为2和4,行位置为5,6,7的数据

f = data.iloc[5:8,[2,4]]
print(f) 

 11.取出列位置为3,行名为2-6的数据

j = data.loc[2:6,['disp']]
print(j)

12.新增1列,名称为abc(abc=mpg+hp),输出前5行数据

data['abc'] = data['mpg'] + data['hp']
data.head()

13.删除前两行数据

print('原数据长度:',len(data))
data.drop(labels=range(0,2),axis=0,inplace=True)   
print('删除后长度:',len(data))

14.删除abc列

data['abc'] = data['mpg'] + data['hp']
print('增加 abc 列后:\n',data.columns)
print('****************************************')
data.drop(labels='abc',axis=1,inplace=True)
print('删除 abc 列后:\n',data.columns)

3、实验三

3.1、题目总览

3.2、代码解析

1.使用如下方法规范化数组:200,300,400,600,1000 

  • 离差标准化
  • 标准差标准化
  • 小数定标标准化
    • 先将所给的一组数取绝对值,找出这组数中绝对值最大的数,然后,利用对数+向上取整来确定10的次方。np.abs()
      • ①numpy库中有ceil()函数,表示向上取整。np.ceil()
      • ②numpy库中log10()用于计算一个数以10为底数,对应的值是多少。np.log10()

import numpy as np 
import pandas as pd 

arry = np.array([200,300,400,500,600,1000])
print('原数组:\n',arry)

# mean 均值   sta 标准差
def result(x):
    x1 = (x - x.min())/(x.max() - x.min())  # 离差
    x2 = (x - x.mean()/x.std())             # 标准差
    x3 = x/10**np.ceil(np.log10(np.abs(x).max())) # 小数 
    return x1,x2,x3

print('离差:\n',result(arry)[0])
print('标准差:\n',result(arry)[1])
print('小数:\n',result(arry)[2])

2.12个销售价格记录如下:5,10,11,13,15,35,50,55,72,92,204,215。使用等宽法对其进行离散化处理(分3类)

price = np.array([5,10,11,13,15,35,50,55,72,92,204,215])

pd.cut(price,3) # 精度默认为 3 

3.自定义一个能够自动实现数据去重、缺失值中位数填补的函数。自行定义测试数据进行验证

  • drop_duplicates() 删除重复的行
  • x.median() 中值
  • x.fillna() 将缺失值替换为该值 x.fillna(0) ==> 将缺失值替换为 0
  • inplace = True 在原数组上操作
def test(x):
    x.drop_duplicates(inplace = True)
    x.fillna(x.median(),inplace = True)
    return(x)

arr = pd.DataFrame(
    {
        'a':['1','2']*2,
        'b':['1','2']*2,
          
    }
)
print('============去重前的数组===================')
print(arr)
print('============去重===================')
print(test(arr))
print('============去重后的数组===================')
print(arr)

4、实验四

3.1、题目总览

3.2、代码解析

1.用plot方法画出x在(0,10)间cos的图像

import numpy as np
from matplotlib import pyplot as plt
   
x = np.arange(0,10,0.1)
y = np.cos(x)

plt.xlabel('X')
plt.ylabel('Y')

plt.plot(x,y)  # 折线图
plt.show()

运行截图:

 2.用scatter方法画出x在(0,10)间sin的点图像

x1 = np.arange(0,10,0.2)
y1 = np.sin(x1)

plt.xlabel('X')
plt.ylabel('Y')

plt.scatter(x1,y1)  # 散点图
plt.show()

运行截图:

 3.绘制一个高分别为3,1,4,5,8,9,7,2,X轴上值为A,B,C,D,E,F,G,H的柱状图

x2 = [1,2,3,4,5,6,7,8]
y2 = [3,1,4,5,8,9,7,2]

label=['A','B','C','D','E','F','G','H']

# 用来显示中文字符  不加中文显示 会报错
plt.rcParams['font.sans-serif'] = ['SimHei']   
 
plt.title('柱状图')
plt.xlabel('X')
plt.ylabel('Y')

p = plt.bar(x2,y2,tick_label = label)  # 柱状图
plt.bar_label(p,labels=y2,padding=0.2) # 为条形图添加数据标签

plt.show()

运行截图:

 4.人口数据总共拥有6个特征,分别为年末总人口、男性人口、女性人口、城镇人口、乡村人口和年份。查看各个特征随着时间推移发生的变化情况可以分析出未来男女人口比例、城乡人口变化的方向。使用NumPy库读取人口数据。创建画布,并添加子图。在两个子图,上分别绘制散点图和折线图。保存,显示图片。分析未来人口变化趋势

import numpy as np
from matplotlib import pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

# ==========读取文件========================
data = np.load('D:\桌面\populations.npz',allow_pickle=True)  
 
# print(type(data)) # class 'numpy.lib.npyio.NpzFile'>

# data.files # npz结尾的数据集是压缩文件,里面还有其他的文件 可用 data.files 进行查看   ['data', 'feature_names']

# print(data['data'])
# print(data['feature_names'])  

# ['时间' '年末总人口(万人)' '男性人口(万人)' '女性人口(万人)' '城镇人口(万人)' '乡村人口(万人)']

# =========处理数据==========================
# 去除缺失值  print(data['data'][:-2])
new_data = np.delete(data['data'],[-1,-2], 0) # [-1,-2] 要删除的行  删除第 -1 行 和 第-2 行
y = new_data
# print(y)

# numpy 选取二维数组 ==> 转为一维 ==> 逆序取值  [-1::-1] 字符串 逆序 取值  不自动实现 排大小功能

y1 = y[:,:1][:,0][-1::-1]   # 时间     
y2 = y[:,1:2][:,0][-1::-1]  # 年末总人口  
y3 = y[:,2:3][:,0][-1::-1]  # 男性人口
y4 = y[:,3:4][:,0][-1::-1]  # 女性人口
y5 = y[:,4:5][:,0][-1::-1]  # 城镇人口
y6 = y[:,5:6][:,0][-1::-1]  # 乡村人口

# print(y1)
#y1 = y[:,:1][:,0]
x = y1 

# x = x[-1::-1]
# print(y2)

# ===创建一个空白画布=== 
fig = plt.figure( figsize=(22,26) )  

# ===创建一个子图===
ax1 = fig.add_subplot(2,1,1)  # 位置: 2行1列 第1个
 
# ==============散点图===================================

line1 = ax1.scatter(x,y2)
line2 = ax1.scatter(x,y3)
line3 = ax1.scatter(x,y4)
line4 = ax1.scatter(x,y5)
line5 = ax1.scatter(x,y6)
plt.legend(handles=[line1,line2,line3,line4,line5], 
           labels=['年末总人口(万人)','男性人口(万人)','女性人口(万人)','城镇人口(万人)','乡村人口(万人)'], loc='best')

# ===创建一个子图===
ax2 = fig.add_subplot(2,1,2)  # 位置: 2行1列 第2个

# ==============折线图====================================

line11, = ax2.plot(x,y2)
line22, = ax2.plot(x,y3)
line33, = ax2.plot(x,y4)
line44, = ax2.plot(x,y5)
line55, = ax2.plot(x,y6)
plt.legend(handles=[line11,line22,line33,line44,line55], 
           labels=['年末总人口(万人)','男性人口(万人)','女性人口(万人)','城镇人口(万人)','乡村人口(万人)'], loc='best')

# =====保存图片===========
plt.savefig('1996-2015年人口数据各个特征随时间推移的变化情况图') # 保存在当前路径下

# =====在本机显示图片=====
plt.show()

# ============问题=========================
# 之前会报错: A proxy artist may be used instead. ==> https://blog.csdn.net/weixin_39944233/article/details/110777868 
# 原因: plt.plot( )返回的是一个二元组值,若要获取实例,必须用x, = plt.plot( )才能取出来实例对象

运行截图:

 5.通过绘制各年份男女人口数目及城乡人口数目的直方图,男女人口比例及城乡人口比例的饼图可以发现人口结构的变化

  • 各年份男女人口数目及城乡人口数目的直方图
# =====各年份男女人口数目及城乡人口数目的直方图
'''
y1 = y[:,:1][:,0][-1::-1]   # 时间 
y3 = y[:,2:3][:,0][-1::-1]  # 男性人口
y4 = y[:,3:4][:,0][-1::-1]  # 女性人口
y5 = y[:,4:5][:,0][-1::-1]  # 城镇人口
y6 = y[:,5:6][:,0][-1::-1]  # 乡村人口
'''
# ===创建一个空白画布=== 
fig = plt.figure( figsize=(22,26) )  

# ===新建一个子图===  =====各年份男女人口数目直方图
ax3 = fig.add_subplot(3,1,1)  

plt.title("1996-2015年男女人口数目直方图")
plt.xlabel('年份')
plt.ylabel('人口数目(万人)')

new_x = np.arange(len(y1))
man_y = y3
woman_y = y4
c_y = y5
x_y = y6

pb1 = plt.bar(new_x - 0.2,man_y,width=0.4) # 柱状图      
pb2 = plt.bar(new_x + 0.2,woman_y,width=0.4)

plt.bar_label(pb1,labels=man_y,padding=0.2) # 每个条块加上其值
plt.bar_label(pb2,labels=woman_y,padding=0.2)
plt.legend(['男', '女'], loc='best')
 
plt.xticks(ticks= new_x, labels= y1) #  ticks: x轴刻度的列表集合  labels:用文本或其他来代替刻度的值


# ===新建一个子图===  ======各年份城乡人口数目直方图
ax4 = fig.add_subplot(3,1,2) 

plt.title("1996-2015年城乡人口数目直方图")
plt.xlabel('年份')
plt.ylabel('人口数目(万人)')

pb3 = plt.bar(new_x - 0.2,c_y,width=0.4) # 柱状图      
pb4 = plt.bar(new_x + 0.2,x_y,width=0.4)

plt.bar_label(pb3,labels=c_y,padding=0.2) # 每个条块加上其值
plt.bar_label(pb4,labels=x_y,padding=0.2)

plt.xticks(ticks= new_x, labels= y1) #  ticks: x轴刻度的列表集合  labels:用文本或其他来代替刻度的值
plt.legend(['城镇人口', '乡村人口'], loc='best')

plt.show()

运行截图:

  • 各年份男女人口比例及城乡人口比例的饼图
# =====各年份男女人口比例及城乡人口比例的饼图
'''
y1 = y[:,:1][:,0][-1::-1]   # 时间 
y3 = y[:,2:3][:,0][-1::-1]  # 男性人口
y4 = y[:,3:4][:,0][-1::-1]  # 女性人口
y5 = y[:,4:5][:,0][-1::-1]  # 城镇人口
y6 = y[:,5:6][:,0][-1::-1]  # 乡村人口
'''
# ===创建一个空白画布=== 
fig = plt.figure( figsize=(20,16) )  
explode = (0.02,0.02)
#  =====各年份男女人口数目饼图
labels = ['男性人口','女性人口']
labels1 = ['城镇人口','乡村人口']
v = [
    [y3[0],y4[0]],
    [y3[1],y4[1]],
    [y3[-2],y4[-2]], 
    [y3[-1],y4[-2]], 
]

v1 = [
    [y5[0],y6[0]],
    [y5[1],y6[1]],
    [y5[-2],y6[-2]], 
    [y5[-1],y6[-2]], 
]
 
#  男女人口数目饼图
ax5 = fig.add_subplot(2,4,1) 
plt.pie(v[0],labels= labels, explode=explode, autopct='%1.1f%%')
plt.tick_params(labelsize=12)
plt.title('1996年男女人口数饼图')

ax6 = fig.add_subplot(2,4,2) 
plt.pie(v[1],labels= labels, explode=explode, autopct='%1.1f%%')
plt.tick_params(labelsize=12)
plt.title('1997年男女人口数饼图')

ax7 = fig.add_subplot(2,4,3)
plt.pie(v[-2],labels= labels, explode=explode, autopct='%1.1f%%')
plt.tick_params(labelsize=12)
plt.title('2014年男女人口数饼图')

ax8 = fig.add_subplot(2,4,4)
plt.pie(v[-1],labels= labels, explode=explode, autopct='%1.1f%%')
plt.tick_params(labelsize=12)
plt.title('2015年男女人口数饼图')


#  城乡人口数目饼图
ax9 = fig.add_subplot(2,4,5) 
plt.pie(v1[0],labels= labels1, explode=explode, autopct='%1.1f%%')
plt.tick_params(labelsize=12)
plt.title('1996年城乡人口数饼图')

ax10 = fig.add_subplot(2,4,6) 
plt.pie(v1[1],labels= labels1, explode=explode, autopct='%1.1f%%')
plt.tick_params(labelsize=12)
plt.title('1997年城乡人口数饼图')

ax11 = fig.add_subplot(2,4,7)
plt.pie(v1[-2],labels= labels1, explode=explode, autopct='%1.1f%%')
plt.tick_params(labelsize=12)
plt.title('2014年城乡人口数饼图')

ax12 = fig.add_subplot(2,4,8)
plt.pie(v1[-1],labels= labels1, explode=explode, autopct='%1.1f%%')
plt.tick_params(labelsize=12)
plt.title('2015年城乡人口数饼图')

# =====保存图片===========
plt.savefig('1996,19967,2014,2015年男女人口比例及城乡人口比例的饼图') 

plt.show()

运行截图:

 ok`----- 小案例到这里就结束啦~

我们下次再见 ^_^

  • 7
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
### 回答1: 如果你想进行Python机器学习实训,可以考虑以下步骤: 1. 了解机器学习的基本概念和理论知识,例如监督学习、无监督学习、深度学习等。 2. 选择合适的Python机器学习库,例如Scikit-learn、TensorFlow、PyTorch、Keras等。 3. 学习Python机器学习库的使用方法,可以通过官方文档、教程视频或在线课程等方式进行学习。 4. 找到一些适合的机器学习案例进行实践,例如房价预测、图像识别、情感分析等。 5. 在实践中不断调试和优化模型,提高模型的准确度和性能。 6. 将学习到的知识和经验进行总结和分享,可以写博客、参与开源项目等方式进行交流。 ### 回答2: python机器学习实训是一种专门针对机器学习算法及其应用的培训课程。通过学习这门课程,学员可以了解机器学习的基本概念、算法原理和实际应用,掌握使用Python进行机器学习的技能。 在这门实训课程中,学员将学习Python编程语言的基础知识,包括语法、数据结构和常用库的使用。随后,学员将学习机器学习的基本概念,如训练集、测试集、分类、回归等,了解常用的机器学习算法和模型。 在实训过程中,学员将通过实际案例进行实践,使用Python编写机器学习模型的代码,进行数据预处理、特征提取、模型训练和评估。学员还可以学习到如何使用不同的机器学习库,如scikit-learn和tensorflow,来简化机器学习任务的实现。 此外,实训还将涵盖机器学习的应用领域,如自然语言处理、图像识别和推荐系统等。学员可以了解不同领域的机器学习应用,学习如何将机器学习算法应用到实际的问题中。 总之,python机器学习实训是一门系统化的培训课程,通过学习这门课程,学员可以获得Python编程和机器学习的双重能力,在实际应用中能够独立完成机器学习任务。 ### 回答3: Python机器学习实训是一种针对机器学习领域的培训课程,主要以Python语言为工具,让学员学习和掌握机器学习的相关知识和技能。 这种实训课程通常包含理论学习和实践操作两个方面。在理论学习阶段,学员会学习机器学习的基本概念、原理和算法,包括监督学习、无监督学习、深度学习等内容。学员会了解各种常用的机器学习算法,如线性回归、逻辑回归、决策树、支持向量机、神经网络等,并学习如何选择和优化合适的算法。 在实践操作阶段,学员会通过真实的数据集进行实际案例分析和建模实验。他们将使用Python编程语言和相关的机器学习库,如NumPy、SciPy、Scikit-learn等,进行数据预处理、特征工程、模型选择和评估等工作。学员会学习如何使用交叉验证、网格搜索等技术来优化模型,并通过可视化技术来展示和解释结果。 Python机器学习实训的目的是培养学员在机器学习领域的实际操作能力和解决问题的能力。通过这种实训,学员可以掌握Python语言,熟悉常见的机器学习算法和工具,并能够应用于实际项目中。实训过程中,学员还可以通过与导师和其他学员的互动交流,提高解决问题的能力和团队合作精神。 总而言之,Python机器学习实训提供了一个系统的学习机会,让学员在实践中掌握机器学习的技术和工具。这种实训有助于学员在人工智能领域中有竞争力,并为他们进一步深入研究和应用机器学习打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

抄代码抄错的小牛马

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值