Spark
rosefunR
每次都多付出一点. 欢迎关注公众号《机器学习与算法之道》
展开
-
Spark安装及介绍
1.Spark介绍并行处理大数据;1.1 MapReduce 算法矩阵向量相乘;指数迭代;随机梯度方法;随机SVD;QR;缺点:1.数据共享的局限性;不同步骤的产物在分布式文件系统;复制和磁盘内存存储导致慢;1.2Spark 计算引擎分布式收集数据结构 RDD(Resilient distributed datasets);2.Spark示例参考:1.Sta...原创 2020-01-18 15:31:45 · 449 阅读 · 0 评论 -
pySpark DataFrame上/下采样的方法
方法一:df_class_0 = df_train[df_train['label'] == 0]df_class_1 = df_train[df_train['label'] == 1]df_class_1_over = df_class_1.sample(count_class_0, replace=True)df_test_over = pd.concat([df_class_0, df_class_1_over], axis=0)方法二:train_1= train_initial.w原创 2020-07-13 21:36:29 · 5677 阅读 · 1 评论 -
pySpark Dataframe stddev()和stddev_pop区别
stddev: 返回样本的标准偏差stddev_pop: 返回样本的方差参考:简书原创 2020-07-13 01:16:09 · 1834 阅读 · 0 评论 -
pySpark kill掉集群的任务
连接上集群,执行yarn application -kill application_1511930647873_6100参考:Stack Overflow原创 2020-07-11 16:26:38 · 917 阅读 · 0 评论 -
pySpark 关于SparkContext和SQLContext等模块
1. pyspark.sql模块是Spark SQL and DataFrames重要的类。pyspark.sql.SparkSession :是DataFrame and SQL 的主入口,比如可以createDataFrame.pyspark.sql.DataFrame :分布式的数据集合。pyspark.sql.Column DataFrame的列.pyspark.sql.Row DataFrame的行.pyspark.sql.GroupedData 聚合方法, 返回 DataFrame原创 2020-07-10 19:55:36 · 1565 阅读 · 0 评论 -
pySpark repartition和coalesce的区别
搜尋結果網路上的精選摘要In Spark or PySpark repartition is used to increase or decrease the RDD, DataFrame, Dataset partitions whereas the Spark coalesce is used to only decrease the number of partitions in an efficient way.2020年4月12日Spark Repartition() vs Coalesce原创 2020-07-12 17:57:58 · 5841 阅读 · 0 评论 -
pySpark DataFrame简介
1. 列名类型pyspark.sql.types moduleDataTypeNullTypeStringTypeBinaryTypeBooleanTypeDateTypeTimestampTypeDecimalTypeDoubleTypeFloatTypeByteTypeIntegerTypeLongTypeShortTypeArrayTypeMapTypeStructFieldStructType原创 2020-07-06 21:03:09 · 576 阅读 · 0 评论 -
Spark实现xgboost多分类(python)
1. spark-xgboost Java包主要需要xgboost4j-spark-0.90.jar, xgboost4j-0.90.jar, 以及 调用代码 sparkxgb.zip.GitHub上面有xgboost java 实现的包,链接:xgboost;但我省事,用了zhihu xgboost的分布式版本(pyspark)使用测试 的下载链接。注意,xgboost 的版本号 和sparkxgb内的内容对应。2. xgboost多分类我是使用pyspark 运行,通过 pyspark --原创 2020-07-02 12:56:06 · 8999 阅读 · 1 评论 -
pyspark sql数据类型
1. pyspark数据类型“DataType”, “NullType”, “StringType”, “BinaryType”, “BooleanType”, “DateType”,“TimestampType”, “DecimalType”, “DoubleType”, “FloatType”, “ByteType”, “IntegerType”,“LongType”, “ShortType”, “ArrayType”, “MapType”, “StructField”, “StructType”原创 2020-06-17 21:17:37 · 1523 阅读 · 0 评论 -
spark DataFrame类型(pyspark)
json读取为dataframesc = spark.sparkContext# A JSON dataset is pointed to by path.# The path can be either a single text file or a directory storing text filespath = "examples/src/main/resources/people.json"peopleDF = spark.read.json(path)# The inferre原创 2020-06-16 15:22:01 · 641 阅读 · 0 评论 -
Hadoop,Spark面试题汇总
Hadoop 有哪些组件?(1)HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。(2)YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager(3)MapReduce:它其实是一个应用程序开发包。————————————————版权声明:...原创 2020-09-24 12:20:29 · 1351 阅读 · 0 评论 -
Spark决策树算法预测实现(Scala语言)
1. 准备数据使用网上的Covtype 数据集,包含csv格式压缩数据文件 covtype.data.gz;解压缩:gzip covtype.data.gz -d数据集记录科罗拉多州不同地块的森林植被类型。Spark MLlib将特征抽象为 LabeledPoint; 由包含多个特征值的Spark MLlib Vector 和一个 label 的目标值组成。目标为double 类型; ...原创 2020-04-14 14:59:59 · 2345 阅读 · 0 评论 -
Jupyter notebook安装Scala
1. 前言使用spark框架一般用Scala,python等语言写。jupyter notebook下安装Scala,能很好等实现在Spark框架写运行代码。2. 实现pip install spylon-kernelpython -m spylon_kernel installjupyter notebook参考:How to run Scala and Spark in...原创 2020-04-13 23:33:44 · 2034 阅读 · 0 评论 -
Spark内置逻辑斯谛回归LR实现(python)
1. Spark版LRfrom pyspark.ml import Pipelinefrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml.linalg import Vectorsspark.conf.set("spark.sql.execution.arrow.enabled", "true")...原创 2020-04-13 23:17:07 · 442 阅读 · 0 评论 -
Spark RDD编程 python版本(2)
1. 创建RDD并行集合进行创建,或者读取外部文件进行创建rdd = sc.textFile('/data/word.txt')nums = [1,2,3,4,5]rdd = sc.parallelize(nums)2. RDD操作转换:操作含义filter(func)筛选满足函数的元素map(func)flatMap(func)gro...原创 2020-04-13 21:09:25 · 229 阅读 · 0 评论 -
Spark2.4.5词频统计(python)
使用jupyter notebook作为交互工具,python语言写。代码sc.textFile()用于加载文件数据。words = sc.textFile('/data/word.txt')结果:/data/word.txt MapPartitionsRDD[3] at textFile at NativeMethodAccessorImpl.java:0这是由于Spark的惰性...原创 2020-04-13 16:34:26 · 1323 阅读 · 0 评论 -
Spark第一个程序
1. 安装Linux环境使用pyspark 和jupyter notebook作为交互工具。具体看 Spark 初入门.2. 第一个程序计算圆周率:import randomnum_samples = 100000000def inside(p): x, y = random.random(), random.random() return x*x + y*y ...原创 2020-04-13 15:53:08 · 240 阅读 · 0 评论