用UCI机器学习库小内存数据练习机器学习
以下是你可以用在算法描述模板中的问题:
-
算法的标准缩写是什么?
-
该算法的目标或者需要解决的问题是什么?
-
该算法的伪代码或者算法流程图是怎样的?
-
应用该算法的思路或者要点是什么?
-
更深入学习算法的有用的资源是什么?
你可以按照以下几个简单的步骤来研究机器学习的算法:
1) 选择一个你想了解的算法(如:随机森林Random Forests)
2) 选定一个你想要了解的有关该算法的问题(如:随机树的数量对最后结果的影响)
3) 设计解决问题的试验(如:在几个不同的二分类问题上试验不同数量的随机树,并绘制数的数量与分类精度的关系图)
4) 执行试验并写出结果,以便日后使用
5) 不断重复这些步骤
以下是从头开始重复执行机器学习算法的步骤:
1) 选择一种程序语言,越熟悉越好。
2) 选择一种算法执行,从简单的开始(可以参考下面的清单)。
3) 选择一个课题去测试你的执行方法,2D数据适合可视化(即使是用Excel)
4) 研究这个算法并利用多种信息来源(如:阅读教程、论文、其他执行方式)
5) 对算法进行单元测试,以确认你对算法的理解,并验证你的执行方式 。
从小处开始并逐渐建立自信。有三种机器学习算法适合你从头开始尝试执行:
-
梯度下降法的线性回归(LinearRegression using Gradient Descent)
-
k近邻算法(k-Nearest Neighbor)
-
贝叶斯分类器(Naive Bayes)
以下是一些我发现最有用的解决问题的库:
数据操作
Numpy
Scipy
Pandas
数据可视化
Matplotlib
机器学习/深度学习
Xgboost
Keras
Nolearn
Gensim
Scikit image
自然语言处理
NLTK