1.机器学习简介
机器学习是实现人工智能的手段,其主要研究内容是如何利用数据或经验进行学习 ,改善具体算法的性能
- 多领域交叉,涉及概率论、统计学,算法复杂度理论等多门学科
- 广泛应用于网络搜索、垃圾邮件过滤、推荐系统、广告投放、信用评价、欺诈检测、股票交易和医疗诊断等应用
2.机器学习分类
机器学习一般分为下面几种类别:
- 监督学习 (Supervised Learning)
- 无监督学习 (Unsupervised Learning)
- 强化学习(Reinforcement Learning,增强学习)
- 半监督学习(Semi-supervised Learning)
- 深度学习 (Deep Learning)
3. Python Scikit-learn
- http://scikit-learn.org/stable/
- Machine Leaning in Python
- 一组简单有效的工具集
- 依赖Python的NumPy,SciPy和matplotlib库
- 开源、可复用
4.sklearn库中的标准数据集
4.1数据集总览
4.2波士顿房价数据集
波士顿房价数据集包含506组数据,每条数据包含房屋以及**房屋
周围的详细信息**。其中包括城镇犯罪率、一氧化氮浓度、住宅平均房
间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿
房价数据集能够应用到回归问题上。
4.2.1波士顿房价数据集
4.2.3波士顿房价数据集-属性描述
4.2.4波士顿房价数据集的使用
使用sklearn.datasets.load_boston即可加载相关数据集
其重要参数为:
* return_X_y:表示是否返回target(即价格),默认为False,只返回data(即属性)。
波士顿房价数据集-加载示例
from sklearn import datasets
boston = datasets.load_boston()