自己研究方向的社交网络,会用到一些机器学习的方法,本身自己也很感兴趣,从去年开始就开始了学习,学习经历和相关资料,代码见GitHub主页:
https://github.com/lovesoft5/ml
学习机器学习大半年了,下面是自己整理的一些心得笔记
机器学习广泛应用于计算机视觉,自然语言处理,信息检索,推荐等领域,因为涉及面太广,现在并没有一个完整的定义什么是机器学习。个人偏向的理解是:机器学习过程本质都是在一个样本空间中,找出一个模型、搜索一组参数,按照需要使其描述这个样本空间(损失函数最小),从而可以对新样本做出某种判断。
一个完整的机器学习项目大体有如下步骤(kaggle比赛流程也大体如下):
首先、将所要解决的问题抽象成机器学习的问题(类似数学建模),目标问题到底是一个什么问题,分类,回归还是聚类问题,要达到的目标是什么,对准确率的要求等。
其次、明确该项目可以获取哪些数据,大概有多少样本,多少个特征,训练的时候内存占用量,需不需要用分布式,
接着、考虑对特征数据做处理和选择,包括特征筛选,数据清晰ÿ