机器学习Python实践（一）

最新推荐文章于 2024-07-14 08:55:19 发布

借&过

最新推荐文章于 2024-07-14 08:55:19 发布

阅读量636

点赞数 1

分类专栏： Python 文章标签：机器学习

本文链接：https://blog.csdn.net/qq_38630004/article/details/107540596

版权

本文是机器学习Python实践系列的第一篇，重点介绍了数据理解与预处理的步骤。内容涵盖数据导入（CSV、Numpy、Pandas）、数据理解（描述性统计、相关性分析、分布分析）、数据可视化（直方图、散点图、相关矩阵图）以及数据预处理（数据转换、特征选定）。数据预处理包括调整数据尺度、正态化、标准化和二值化，特征选定则涉及单变量特征选择、递归特征消除、主要成分分析和特征重要性计算。

摘要由CSDN通过智能技术生成

最近学习机器学习，用博客来记录一些笔记。如果涉及侵权联系删除。

一、数据理解

1.数据导入(CSV文件)

使用标准Python类库导入数据

#使用标准Python类库导入CSV文件
from csv import reader
import numpy as np
filaname = 'pima_data.csv'
with open(filaname,'rt') as raw_data:
    readers = reader(raw_data,delimiter=',')
    x = list(readers)
    data = np.array(x).astype('float')
    print(data.shape)

使用Numpy导入数据

#使用Numpy导入CSV数据
from csv import reader
from numpy import loadtxt

filaname = 'pima_data.csv'
with open(filaname,'rt') as raw_data:
    data = loadtxt(raw_data,delimiter=',')
    print(data.shape)

使用Pandas导入数据

#使用Pandas导入数据

from pandas import read_csv
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filaname,names=names)
print(data.shape)

2.数据理解

简单的查看数据，数据的维度（行和列），数据的属性和类型

#查看数据前10行
from pandas import read_csv
filaname = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filaname,names=names)
peek = data.head(10)
print(peek)#显示数据的前10行
print(data.shape)#显示数据的行和列数据
print(data.dtypes)#显示数据属性和类型