spark
今辰念
这个作者很懒,什么都没留下…
展开
-
spark实现决策树
我们以iris数据集(iris)为例进行分析。iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。决策树可以用于分类和回归,接下来我们将在代码中分别进行介绍。导入需要的包:from pyspark.ml.linalg import Vector,Vectorsfrom pyspar...原创 2018-10-11 09:35:16 · 1796 阅读 · 0 评论 -
spark实现随机森林
# 1. 导入需要的包:import pysparkfrom pyspark.sql import SQLContextfrom pyspark import SparkContextfrom pyspark.sql import Row,functionsfrom pyspark.mllib.linalg import Vector,Vectorsfrom pyspark.ml.ev...原创 2018-10-12 11:31:52 · 1095 阅读 · 2 评论 -
修改spark的日志不要打印到屏幕,输出到文件
复制spark日志配置文件模板:cd confcp log4j.properties.template log4j.properties修改log4j.properties文件:log4j.rootCategory=INFO, FILElog4j.appender.FILE=org.apache.log4j.DailyRollingFileAppender log4j.appen...原创 2019-07-24 15:47:50 · 1725 阅读 · 0 评论 -
pyspark读写orc格式数据
读orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')写orc_df.write.orc(os.path.join(tempfile.mkdtemp(), 'data'))原创 2019-07-25 15:11:04 · 2691 阅读 · 0 评论