生成（CSV）训练数据集,并进行可视化、存储、拷贝、打开处理（一）

最新推荐文章于 2024-09-08 00:06:54 发布

knowyourself1

最新推荐文章于 2024-09-08 00:06:54 发布

阅读量3.4k

点赞数

文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_40163266/article/details/113965803

版权

该博客介绍了如何使用numpy和pandas生成及处理CSV训练数据集。首先，通过numpy生成x和y数据，并添加噪声。接着，将数据转换为DataFrame并保存为CSV文件。然后，使用matplotlib进行数据可视化，并将CSV文件复制到不同目录。最后，使用pandas读取并展示数据。代码详细展示了数据处理的各个环节。

摘要由CSDN通过智能技术生成

生成（CSV）训练数据集,并进行可视化、存储、拷贝、打开处理（一）

**目的：**生成（列表，非图像）训练数据集、进行可视化、存储、拷贝、打开处理
步骤：
1、使用numpy生成x,y
2、使用pandas，由x,y生成dataFame
3、使用matplotlib,将数据可视化
4、保存数据集为CSV格式
5、使用open、write函数拷贝CSV文件到不同目录
6、使用pandas，读取数据集

原理
拷贝CSV文件至不同目录下的原理
在这里插入图片描述
将CSV文件从目录1拷贝至目录2，且文件前后同名

代码块

#coding=utf-8

import os
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

#1、生成数据集
x=np.linspace(-1,1,100)  #将-1到1均分成100份
y=2*x+5+np.random.randn(100)*0.1  #加入噪声，np.random.randn(100):表示随机取100个正态分布随机数

#2将生成的数据保存为CSV格式，（字典中的key值即为CSV的值）
data=pd.DataFrame({'X':x,'Y':y})
home_path=os.path.dirname(os.path.abspath(__file__))  #获得该脚本的当前目录(绝对路径)
#存储数据，Windows下的存储数据与Linux的存储路径有区别
#print(os.name)
if os.name=='nt':
    data.to_csv('{}\\data_preprocessing.csv'.format(home_path),index=False,sep=',')  #windows下的路径
else:
    data.to_csv('{}/data_preprocessing.csv'.format(home_path),index=False,sep=',')  #Linux下的路径

#3、数据集的拷贝
print(home_path)    #D:\pycharm\canny  pca
with open(r'D:/pycharm/canny  pca/data_preprocessing.py','rb') as stream:
    #print(stream.name)  #D:/pycharm/canny  pca/data_preprocessing.py
    file=stream.name
    filename=file[file.rfind('/')+1:] #获取文件名
    print(filename)  #data_preprocessing.py
    container=stream.read()  #读取文件内容
    home_path1=os.path.join('../exercise/exercise',filename)
    with open(home_path1,'wb') as wstream:
        wstream.write(container)

#4、数据集的可视化
#创建一个图形框，在里面只有一幅画
fig=plt.figure(figsize=(8,8),dpi=80)  #figsize=(8,8),dpi=80:可以省略，figsize=(8,8)指生成图框的大小，dpi=80：指图形的分辨率
ax=fig.add_subplot(111)  #111指只生成一幅图，放在第一行第一列，选取第一个
#设置坐标轴
ax.set_xlabel('x')  #x轴标签
#ax.set_xticks(range(0,10))  #刻度
ax.set_xlabel('y')  #y轴标签
#ax.set.xticks(range(-2,10))
#画点图，点的颜色为红色
ax.scatter(data.X,data.Y,color='r',label='y=2*x+5+epsilon')
plt.legend()  #plt.legend(),如果使用默认参数，则使plt.plot()函数产生效果，如设置参数，则进行个性化图例设置。一般使用默认参数
#展示上面所画的图片，图片将阻断程序的运行，直到所有的图片被关闭
#在 python shell中，可以设置参数‘block=False’,使阻断失效
plt.show()

'''
#图例可视化方法二
plt.plot(data.X,data.Y,'ro',label='original data')
plt.legend()
plt.show()
'''

#5、使用pandas读取数据集
path='./data_preprocessing.csv'
data=pd.read_csv(path)
#print(data)