“数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这句话很好的阐述了数据在机器学习中的重要性。大部分直接拿过来的数据都是特征不明显的、没有经过处理的或者说是存在很多无用的数据,那么需要进行一些特征处理,特征的缩放等等,满足训练数据的要求。
我们将初次接触到Scikit-learn这个机器学习库的使用
Scikit-learn
- Python语言的机器学习工具
- 所有人都适用,可在不同的上下文中重用
- 基于NumPy、SciPy和matplotlib构建
- 开源、商业可用 - BSD许可
- 目前稳定版本0.18
自2007年发布以来,scikit-learn已经成为最给力的Python机器学习库(library)了。scikit-learn支持的机器学习算法包括分类,回归,降维和聚类。还有一些特征提取(extracting features)、数据处理(processing data)和模型评估(evaluating models)的模块。作为Scipy库的扩展