0.参考文章
Spark入门(Python版)
Spark1.0.0 多语言编程之python实现
Spark编程指南(python版)
1.pyspark练习
进入到spark目录,
1.1 修改log4j.properties
Spark(和PySpark)的执行可以特别详细,很多INFO日志消息都会打印到屏幕。开发过程中,这些非常恼人,因为可能丢失Python栈跟踪或者print的输出。为了减少Spark输出 – 你可以设置$SPARK_HOME/conf
下的log4j。首先,拷贝一份$SPARK_HOME/conf/log4j.properties.template
文件,去掉“.template”扩展名。
cp $SPARK_HOME/conf/log4j.properties.template $SPARK_HOME/conf/log4j.properties
编辑log4.properties,将INFO替换为WARN
替换后如下:
# Set everything to be logged to the console
log4j.rootCategory=WARN, console
log4j.appender.console=org.apache.log4j