机器学习Python实践(一)

本文是机器学习Python实践系列的第一篇,重点介绍了数据理解与预处理的步骤。内容涵盖数据导入(CSV、Numpy、Pandas)、数据理解(描述性统计、相关性分析、分布分析)、数据可视化(直方图、散点图、相关矩阵图)以及数据预处理(数据转换、特征选定)。数据预处理包括调整数据尺度、正态化、标准化和二值化,特征选定则涉及单变量特征选择、递归特征消除、主要成分分析和特征重要性计算。
摘要由CSDN通过智能技术生成

最近学习机器学习,用博客来记录一些笔记。如果涉及侵权联系删除。

一、数据理解

1.数据导入(CSV文件)

  • 使用标准Python类库导入数据
#使用标准Python类库导入CSV文件
from csv import reader
import numpy as np
filaname = 'pima_data.csv'
with open(filaname,'rt') as raw_data:
    readers = reader(raw_data,delimiter=',')
    x = list(readers)
    data = np.array(x).astype('float')
    print(data.shape)

使用Numpy导入数据

#使用Numpy导入CSV数据
from csv import reader
from numpy import loadtxt

filaname = 'pima_data.csv'
with open(filaname,'rt') as raw_data:
    data = loadtxt(raw_data,delimiter=',')
    print(data.shape)
  • 使用Pandas导入数据
#使用Pandas导入数据

from pandas import read_csv
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filaname,names=names)
print(data.shape)

2.数据理解

  • 简单的查看数据,数据的维度(行和列),数据的属性和类型
#查看数据前10行
from pandas import read_csv
filaname = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filaname,names=names)
peek = data.head(10)
print(peek)#显示数据的前10行
print(data.shape)#显示数据的行和列数据
print(data.dtypes)#显示数据属性和类型
  • 描述性统计(包含数据记录数,平均值&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值