File “/site-packages/pyspark/python/lib/pyspark.zip/pyspark/sql/functions.py“, line 187, in sum 原因是我在前面导入了pyspark.sql模块,导致使用sum方法时用到sql模块中而不是正常的sum方法,出现报错。在运行分布式计算本轮迭代代价cost时,使用map方法出现如上报错,代码如下。
Mac配置kafka解决:Unrecognized VM option ‘PrintGCDateStamps‘ 启动kafka时出现Unrecognized VM option 'PrintGCDateStamps'问题,如下。将java版本修改为1.8(可以去tuna tsinghua上找 在oracle找了还特地注册了个账号 无果)更新后记得修改环境变量 我的环境变量在.bash_profile中 修改后source使环境变量生效。原因:目前配置的版本不认识kafka中jvm选项。然后就可以启动kafka咯。