机器学习 _ 数据理解

1 数据导入

在机器学习中使用的数据通常会以csv的格式来存储,或者能够方便地转化为csv格式

1.1 采用标准Python类库导入数据

from csv import reader
import numpy as np

# 采用标准的Python类库导入csv数据
filename = 'pima_data.csv'
with open(filename, 'rt') as raw_data:
    readers = reader(raw_data, delimiter=',')
    x = list(readers)
    data = np.array(x).astype('float')
    print(data.shape)

1.2 采用NumPy导入数据       

from numpy import loadtxt

# 使用NumPy导入CSV数据
filename = 'pima_data.csv'
with open (filename, 'rt') as raw_data:
    data = loadtxt(raw_data, delimiter=',')
    print(data.shape)

1.3 采用Pandas导入数据

from pandas import read_csv

# 使用Pandas导入CSV数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.shape)

注:通过Pandas导入CSV文件要使用pandas.read_csv()函数,函数的返回值是DataFrame,可以很方便地进行下一步的处理。在机器学习中一般建议采用Pandas导入

2 数据理解

2.1 简单地查看数据

from pandas import read_csv

# 导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
# 显示数据的前10行
peek = data.head(10)
print(peek)

2.2 数据的维度

# 显示数据的行和列数据
print(data.shape)

2.3 数据的属性和类型

# 显示数据的类型
print(data.dtypes)

2.4 描述性统计

# 描述性统计
set_option('display.width', 100)
# 设置数据的精确度
set_option('precision', 4)
print(data.describe())

2.5 数据分组分布(适用于分类算法)

print(data.groupby('class').size())

2.6 数据属性的相关性

# 显示数据的相关性
print(data.corr(method='pearson'))

注:数据属性的相关性是指数据的两个属性是否互相影响,以及这种影响是什么方式等。比较通用的计算两个属性的相关性的方法是皮尔逊相关系数,当数据的关联性比较高时,有些算法的性能会降低。

2.7 数据的分布分析

# 计算数据的高斯偏离
print(data.skew())

注:skew()函数的结果显示了数据分布是左偏还是右偏,当数据接近0时,表示数据的偏差非常小。

3 数据可视化

3.1 单一图表

# 绘制直方图
data.hist()
plt.show()
# 绘制密度图
data.plot(kind='density', subplots=True, layout=(3, 3), sharex=False)
plt.show()
# 绘制密度图
data.plot(kind='box', subplots=True, layout=(3, 3), sharex=False)
plt.show()

3.2 多重图表

3.2.1 相关矩阵图

# 绘制相关矩阵图
correlations = data.corr()
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1, vmax=1)
fig.colorbar(cax)
ticks = np.arange(0, 9, 1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()

 注:相关矩阵图主要用来展示两个不同属性的相互影响的程度。

3.2.2 散点矩阵图

# 绘制散点矩阵图
scatter_matrix(data)
plt.show()

注:散点矩阵图表示因变量岁自变量变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。

参考文献

[1] 魏贞原.2018.机器学习:Python实践[M].北京:电子工业出版社

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 机器学习中的车辆数据集是一种被广泛应用的数据集类型,因为车辆数据集可以提供大量有用的信息,例如车辆性能、驾驶行为、交通流量等等。这些信息可以帮助我们更好地了解车辆和驾驶行为,从而提高交通流畅度、减少事故率、优化车辆性能等等方面发挥重要作用。 车辆数据集主要是通过车载传感器、GPS、摄像头等设备采集的,这些设备可以提供车辆速度、油耗、转向和制动等信息,也可以捕捉周围环境的图像、行人和其他车辆。这些数据集通常很大,因为在高速公路上甚至每秒钟也会产生数千个数据点,而这些数据点可以用于诸如动态交通模型、预测拥堵和事故等分析和预测。 车辆数据集的应用可以非常广泛,例如可以用于构建智能车辆系统、实现自动驾驶、预测车辆故障、优化燃料经济性等等。此外,车辆数据集可以与其他数据集结合使用,例如天气数据、城市地图等,以更全面地分析交通流量和驾驶行为,并制定更好的交通政策。 总之,车辆数据集在机器学习领域中具有重要意义,可以为我们提供有用的信息和洞见,进而提高交通效率、安全性和可持续性。 ### 回答2: 机器学习是一项强大的技术,它可以帮助我们分析和理解复杂的数据集。车辆数据集是一类重要的数据集,它可以帮助我们了解更多有关汽车运行和维护的信息。 通过运用机器学习算法,我们可以更好地理解这些数据,从而为车辆制造商、维修商和驾驶员提供更好的服务。 车辆数据集可以包含很多内容,比如车速、油耗、里程数、发动机数据等。这些数据可以被分为几个不同的类别,包括车辆性能数据、行驶数据、车况数据等。分析这些数据可以帮助我们了解车辆的运行情况和维护需求,进而提高车辆的可靠性和安全性。 使用机器学习算法对车辆数据集进行分析,可以帮助我们发现数据中的模式和趋势,从而更好地了解车辆的运行情况。例如,通过运用决策树算法,我们可以根据行驶数据来预测车辆何时需要进行保养或维修。而使用神经网络算法,则可以帮助我们预测车辆的燃油效率和性能表现。这些算法和模型的使用,可以帮助车辆制造商和维修商更好地了解车辆情况,从而为车主提供更好的服务。 总之,车辆数据集是一类非常有用的数据集,使用机器学习算法可以帮助我们从中挖掘出更多有用的信息。这些信息可以帮助车辆制造商、维修商和驾驶员更好地了解车辆情况,提高车辆性能和安全性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值