2.1数据科学家的Scala
spark是用scala语言编写的,使用scala语言进行大数据开发的好处有
1、性能开销小
减少不同环境下传递代码和数据的错误和性能开销
2、能用上最新的版本和最好的功能
Spark的新功能毫无疑问是首先适配scala语言,但使用spark的所有功能可不是那么容易
3、有助于了解spark的原理
2.2小试牛刀
接下来是通过一个数据清理的例子来熟悉scala和spark,可以从http://bit.ly/1Aoywaq下载本节的数据集(需要翻墙下载),推荐一个VPN网址一小时VPN。
数据的预览