1.首先从图片的角度,对机器学习算法、实战有一个全面而感性的认识。
1.1 机器学习算法思维导图
1.2 监督学习经典模型树状图
1.3 Scikit-learn工具包使用网状图
1.4 监督学习流程图
2.剖析监督学习流程图的每一个步骤(by code)。
2.1 原始数据收集
(1)导入本地数据:
import pandas as pd
train = pd.read_csv('../Breast-Cancer/breast-cancer-train.csv')
test = pd.read_csv('../Breast-Cancer/breast-cancer-test.csv')
(2)在线获取数据
import pandas as pd
titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
(3)导入sklearn模块自带的数据集
from sklearn.datasets import load_boston,load_digits,fetch_20newsgroups
boston = load_boston()
#查看数据说明(DESCR)
print boston.DESCR
digits = load_digits()
#查看数据规模和特征维度
print digits.data.shape
#与之前预存的数据不同,fetch_20newsgroups需要即时从互联网下载数据
news=fetch_20newsgroups(subset='all')
#查验数据规模和细节
print len(news.data)
print news.data[0]
2.2 数据预处理
- 处理缺失数据 </