网上搜索了一堆,最后对这几个概念的联系与差别总结如下:
1.数据挖掘:data mining,是一个很宽泛的概念。字面的意思是从成吨的数据里面挖掘有用的信息。这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做。利用Excel分析数据,发现了一些有用的信息,然后通过这些信息指导你的Business的过程也是数据挖掘的过程。
2.机器学习:machine learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。
3.深度学习:deep learning,机器学习里面现在比较火的一个topic(大坑),本身是神经网络算法的衍生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。
总结下,数据挖掘是个很宽泛的概念,数据挖掘常用方法大多来自于机器学习这门学科,深度学习是机器学习一类比较火的算法,本质上还是原来的神经网络。
4.推荐算法:机器学习是方法,人工智能/数据挖掘是应用,可以使用机器学习,也可以使用别的方法。数据挖掘有很多应用场景,推荐系统是其中一个业务目的明确的, 有一定历史的,成体系的,已经形成较为完善的经验积累的应用场景。数据挖掘中还有很多应用场景有待开发,连是否能挖出有价值的模式都不知道。像推荐系统,计算机视觉,nlp这些价值已知的场景,明显是要幸运一些。写书的当然什么都要写写啦,难道机器学习里有的东西,推荐系统的书就不能写了?再说这些书侧重点不同,推荐系统里讲的机器学习算法更贴近推荐业务,侧重于算法应用,应用效果,对具体业务指标的影响,给整个系统带来的局限或提升等等。肯定不会像统计学习基础那样给你讲一堆推倒过程,讲统计特性,更不会像统计学习理论那样再给你来几下证明。这些书都有说机器学习,但是角度不同。如果讲机器学习算法的书和讲推荐系统的书在讲机器学习算法时基本差不多,那么那本讲机器学习的书也基本可以扔掉了。