100-Days-Of-ML-Code
中文版《机器学习100天》
GitHub :https://github.com/MLEveryday/100-Days-Of-ML-Code
导入第三方库可参考 https://jingyan.baidu.com/article/48b37f8dc107441a6564887e.html
自行生成了所用到的数据——Data.csv(注意数据之间需要以逗号分隔)
补加:后来在百度上搜索了下,发现了GitHub上下载单个文件的方法,可参考https://blog.csdn.net/smallcaff/article/details/79623174(悲催的我当时一个逗号一个逗号地改的……)
数据预处理主要包括六个部分:
1、导入库
import numpy as np
import pandas as pd
2、导入数据集
使用Pandas的read_csv方法读取本地csv文件为一个数据帧(DataFrame),然后从数据帧中制作自变量和因变量的矩阵和向量。
dataset = pd.read_csv('D:\PycharmProjects\DataSet\Data4.csv') #读取csv文件
X = dataset.iloc[ : , :-1].values #.iloc[行,列],前面的:表示提取所有行,后面的为切片,提取到倒数第二列
Y = dataset.iloc[ : , 3].values # : 全部行 or 列;[a]第a行 or 列
结果如下:(缺失的数据用nan表示)
3、处理丢失数据
用整列的平均值替换丢失的数据
用sklearn.preprocessing库中的Imputer类来完成
from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
imputer = imputer.fit(X[ : , 1:3])
X[ : , 1:3] = imputer.transform(X[ : , 1