pyspark在高校里的实验室用的比较多,但实际工业界因为以下两个原因,其实用的并不多。
原因1:主要原因,速度太慢。
实验室一般数据量不会特别大,所以速度稍微慢一些,影响不大。但工业界数据是非常庞大的,速度是金钱的。
原因2:Pyspark的api接口并不全,功能不够完整。
Spark刚开始只支持Scala和Java语言,后来为了能让更多人使用,才开发了支持Python(对应的就是pyspark)和R语言的api接口,但是因为开发晚以及其他种种原因,新开发的语言的api接口并不齐全。
实际工业中Pyspark用的多吗?为什么?
最新推荐文章于 2023-06-13 19:05:36 发布