机器学习包括了计算机科学,工程技术和统计学等多个学科.
attributes(属性)
features(特征)
特征可以是数值型,二值型(真,假),枚举型
训练集(training set)
测试集(test set)
训练样本(training examples)
目标变量(target variable)
分类(classification)
回归(regression)
数值型(numeric value)
有监督学习(supervised learning)
无监督学习(unsupervised learning)
聚类(clustering)
密度估计(density estimation)
降维(dimensionality reduction)
如何选择合适的算法
1.考虑算法的目的
2.考虑数据的问题
特征值是离线还是连续,是否存在缺失值,是否存在异常值,特征的频率如何
机器学习步骤
1.收集数据
爬虫,api等
2.清洗数据,异常值,缺失值,使数据符合要求的输入格式
3.训练算法
4.测试算法
5.生产实践