Spark入门
authorized_keys
这个作者很懒,什么都没留下…
展开
-
2020-08-06 Scala:map和flatMap
依据厦大林子雨老师的教程: Scala入门:map操作和flatMap操作 map操作是针对集合的典型变换操作,它将某个函数应用到集合中的每个元素,并产生一个结果集合。 flatMap是map的一种扩展。在flatMap中,我们会传入一个函数,该函数对每个输入都会返回一个集合(而不是一个元素),然后,flatMap把生成的多个集合“拍扁”成为一个集合。 通过下面的对比,可以看出二者的区别: 可见,flatMap操作是先对每个元素做toList处理(Map),而后将各个元素的处理结果(集合)做原创 2020-08-06 09:26:06 · 142 阅读 · 0 评论 -
pyspark 实例化模型报错 features doesn't exist
使用pyspark做机器学习,实例化模型对象时,需要指定输入featuresCol的名称。其中,featuresCol是由数据的X构成的“单列”,aka 'vector'。 否则会报错: Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/data/spar...原创 2019-10-25 17:53:39 · 2525 阅读 · 0 评论 -
pyspark 读取csv 到dataframe 参数
现在都要用spark做分布式计算,学一些防身。 使用pyspark读取CSV文件时,命令参数与pandas略有区别,注意区分。原创 2019-10-25 13:34:01 · 1958 阅读 · 0 评论