这个问题,在spark官网上有解释,通俗理解如下:
http://spark.apache.org/docs/latest/ml-guide.html
首先这个说法是不完全确切的,应该是说spark mllib 是选用 dataframe-based api 还是 RDD-based api ,官方推荐dataframe-based api,另外我个人从python过来,也觉得dataframe熟悉些。
而spark ml 包应该是 对dataframe-based api 包的别称吧,大概因为包调用的时候名字都是包含 spark.ml