![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 58
小钻风巡山
咸鱼即将翻身
展开
-
SparkMLlib 支持向量机与线性回归
下面介绍sparkML中常用的算法与demo的使用方式,使用方式提供javaApipom依赖这里使用的版本spark为2.0.0 scala为2.11可以根据自己的需求调整 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artifactId>原创 2020-11-26 12:40:35 · 387 阅读 · 0 评论 -
streaming 并行度设置
SparkStreaming并行度属性设置spark.streaming.blockInterval:该属性是对BatchInterval的进一步细化切分。将一个BatchInterval的数据喜欢切分成更小的block,一个block对应一个Spark Partition。BatchInterval的数据对应RDDblockInterval的数据对应RDD中的Partition所以SparkStreaming中Partition的数量公式如下:Partition个数 =..转载 2020-10-28 11:24:57 · 324 阅读 · 0 评论 -
spark-sql on hive配置 thriftserver
hive-site.xml <property> <name>hive.insert.into.multilevel.dirs</name> <value>true</value> <description>允许生成多级目录</description> </property>...原创 2020-09-11 17:07:53 · 498 阅读 · 0 评论 -
spark-sql 分区小文件合并
spark-sql执行任务小文件生成规则示例数据元数据 : {数据库名称:mydb, 表名称:t30, 字段列表: a int, b int c int}主数据: [1,4,2 ; 3,4,6 ; 4,6,7]1.使用spark-sql查询表数据 任务的task数与小文件数保持一致例如下图所示 : 表t30中保存的是主数据,其中有17个文件,每一个文件的大小都小于块大小(64M)启动spark任务 示例spa...原创 2020-09-11 16:01:14 · 2498 阅读 · 0 评论 -
随机森林
pom<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.0&l...原创 2019-08-01 17:54:08 · 191 阅读 · 2 评论 -
线性回归预测
pom<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.0&l...原创 2019-08-01 16:31:12 · 454 阅读 · 0 评论 -
K近邻算法
pom<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.0&l...原创 2019-08-01 13:28:38 · 121 阅读 · 0 评论 -
神经网络的MLPC(多层感知器分类器)
pom<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.0</...原创 2019-08-02 16:56:49 · 2027 阅读 · 0 评论 -
spark 性能调优
转自:https://www.cnblogs.com/jcchoiling/p/6440709.html核心调优参数如下: 1 2 3 4 5 6 7 num-executors executor-memory executor-cores driver-memory spa...转载 2019-06-10 14:09:35 · 239 阅读 · 0 评论 -
spark使用javaApi
引入java pom依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.1</version></dependency&...原创 2018-09-29 16:17:39 · 2799 阅读 · 0 评论 -
hbase-spark组合使用
依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="htt原创 2019-01-16 15:55:10 · 595 阅读 · 0 评论 -
sparkStreaming流式处理
1.下载nc造假数据(生产者) yum install -y nc2.往指定端口发送数据 nc -lk 99993.编写sparkStreaming程序(1.6版本)引入依赖2.11表示scala版本 1.6.1表示spark版本<dependencies> <dependency> <groupId>org....原创 2019-02-27 23:08:52 · 180 阅读 · 0 评论 -
协同过滤推荐算法
协同过滤推荐算法分为 基于用户推荐相似度,基于物品相似度推荐,基于内容相似度推荐import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java....原创 2019-02-25 13:20:47 · 119 阅读 · 0 评论