生成(CSV)训练数据集,并进行可视化、存储、拷贝、打开处理(一)

该博客介绍了如何使用numpy和pandas生成及处理CSV训练数据集。首先,通过numpy生成x和y数据,并添加噪声。接着,将数据转换为DataFrame并保存为CSV文件。然后,使用matplotlib进行数据可视化,并将CSV文件复制到不同目录。最后,使用pandas读取并展示数据。代码详细展示了数据处理的各个环节。
摘要由CSDN通过智能技术生成

生成(CSV)训练数据集,并进行可视化、存储、拷贝、打开处理(一)

**目的:**生成(列表,非图像)训练数据集、进行可视化、存储、拷贝、打开处理
步骤:
1、使用numpy生成x,y
2、使用pandas,由x,y生成dataFame
3、使用matplotlib,将数据可视化
4、保存数据集为CSV格式
5、使用open、write函数拷贝CSV文件到不同目录
6、使用pandas,读取数据集

原理
拷贝CSV文件至不同目录下的原理
在这里插入图片描述
将CSV文件从目录1拷贝至 目录2,且文件前后同名
在这里插入图片描述
代码块

#coding=utf-8

import os
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

#1、生成数据集
x=np.linspace(-1,1,100)  #将-1到1均分成100份
y=2*x+5+np.random.randn(100)*0.1  #加入噪声,np.random.randn(100):表示随机取100个正态分布随机数

#2将生成的数据保存为CSV格式,(字典中的key值即为CSV的值)
data=pd.DataFrame({'X':x,'Y':y})
home_path=os.path.dirname(os.path.abspath(__file__))  #获得该脚本的当前目录(绝对路径)
#存储数据,Windows下的存储数据与Linux的存储路径有区别
#print(os.name)
if os.name=='nt':
    data.to_csv('{}\\data_preprocessing.csv'.format(home_path),index=False,sep=',')  #windows下的路径
else:
    data.to_csv('{}/data_preprocessing.csv'.format(home_path),index=False,sep=',')  #Linux下的路径

#3、数据集的拷贝
print(home_path)    #D:\pycharm\canny  pca
with open(r'D:/pycharm/canny  pca/data_preprocessing.py','rb') as stream:
    #print(stream.name)  #D:/pycharm/canny  pca/data_preprocessing.py
    file=stream.name
    filename=file[file.rfind('/')+1:] #获取文件名
    print(filename)  #data_preprocessing.py
    container=stream.read()  #读取文件内容
    home_path1=os.path.join('../exercise/exercise',filename)
    with open(home_path1,'wb') as wstream:
        wstream.write(container)

#4、数据集的可视化
#创建一个图形框,在里面只有一幅画
fig=plt.figure(figsize=(8,8),dpi=80)  #figsize=(8,8),dpi=80:可以省略,figsize=(8,8)指生成图框的大小,dpi=80:指图形的分辨率
ax=fig.add_subplot(111)  #111指只生成一幅图,放在第一行第一列,选取第一个
#设置坐标轴
ax.set_xlabel('x')  #x轴标签
#ax.set_xticks(range(0,10))  #刻度
ax.set_xlabel('y')  #y轴标签
#ax.set.xticks(range(-2,10))
#画点图,点的颜色为红色
ax.scatter(data.X,data.Y,color='r',label='y=2*x+5+epsilon')
plt.legend()  #plt.legend(),如果使用默认参数,则使plt.plot()函数产生效果,如设置参数,则进行个性化图例设置。一般使用默认参数
#展示上面所画的图片,图片将阻断程序的运行,直到所有的图片被关闭
#在 python shell中,可以设置参数‘block=False’,使阻断失效
plt.show()

'''
#图例可视化方法二
plt.plot(data.X,data.Y,'ro',label='original data')
plt.legend()
plt.show()
'''

#5、使用pandas读取数据集
path='./data_preprocessing.csv'
data=pd.read_csv(path)
#print(data)

结果:
在这里插入图片描述
在这里插入图片描述

参考资料
1、唐亘—精通数据科学:从线性回归到深度学习—第四章02
2、2019千锋Python视频教程—week3—day12—118

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值