实例
实际案例模板搭建步骤
小nove
这个作者很懒,什么都没留下…
展开
-
saprk连通图
一个简单的联通图好友推荐尝试联通图算法package graphximport org.apache.spark.graphx.{Edge, Graph, VertexId, VertexRDD}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Create...原创 2020-04-28 14:58:46 · 266 阅读 · 0 评论 -
{"status":211,"message":"APP SN校验失败"}我的问题
描述注册成为开发者后,使用sn的方式来进行校验,官网给出了计算的方发,将计算出来的sn拼接后发现校验失败,本地的sn与云端的sn不一致。问题使用经纬度获取位置坐标,还需要计算location。在给定的代码里将paramsStr也要进行拼接。测试修改代码,将location与sn都进行输出package test;import java.io.UnsupportedEncoding...原创 2020-04-27 09:45:42 · 2273 阅读 · 1 评论 -
spark写入mysql
spakr中df的内容写入mysqlrdd或其他内容转化为df配置数据库的属性调用df的写入方法 //ds转化为df val frame = sprak.createDataFrame(value) val prop =new Properties() prop.setProperty("user","root") prop.setProperty...原创 2020-04-23 11:01:31 · 257 阅读 · 0 评论 -
java的jdbc,连接池的工具类,druid连接池的使用
配置文件jdbc.username=rootjdbc.password=123jdbc.driver=com.mysql.jdbc.Driverjdbc.url=jdbc:mysql://localhost:3306/bigdatajava的jdbc工具类从配置文件中获取连接,返回连接对象package jdbcutiis.jdbcutilsAndTest;import ja...原创 2019-12-30 14:58:04 · 565 阅读 · 0 评论 -
java读取配置文件的方法
不需要三方依赖直接读取等号两边的内容代码 InputStream isp = this.getClass().getClassLoader().getResourceAsStream("application.properties"); Properties properties = new Properties(); try { pr...原创 2019-12-29 20:34:02 · 95 阅读 · 0 评论 -
hive的调优
1.数据压缩gzip:压缩比与速度都中等,不可切片bzip:压缩比最大,可切片lozy:中等,可切片snappy:压缩速度快,可切片常用大数据一般选用snappy形式的压缩。2.数据存储格式1.默认行存储。gzip存储不可切片。2.列存储,可切片,可以不从文件的开始读取数据,加快了查询的速速3.RCfile:结合行列的优点。进行了压缩存储又加快了查询的速度4.ORfile:R...原创 2019-11-23 15:57:29 · 134 阅读 · 0 评论 -
读取kafka数据的偏移量的维护
使用spark来获取kafka的数据要建立一个连接对象来获取数据——对象的建立需要传入偏移量参数偏移量的初始值:多个分区需要有多行数据。partition从0开始排,逐个增加。 //kafka的连接参数 val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "hadoop101:9092,ha...原创 2019-11-19 21:03:58 · 682 阅读 · 0 评论 -
scala将数据写入Redis
依赖 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version> </de...原创 2019-11-18 23:37:51 · 2530 阅读 · 1 评论 -
SparkStream消费Kafka的数据
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.2.0</version&g...原创 2019-11-18 23:14:37 · 409 阅读 · 0 评论 -
scala like jdbc的使用
除查询外其他的语法类似,支持事务的控制package scalikejdbcimport scalikejdbc.config.DBs//测试scalikejdbc的使用object scalaJdbcDemo { def main(args: Array[String]): Unit = { //插入数据 //加载配置文件中的jdbc,要求表是存在的 D...原创 2019-11-16 17:28:18 · 270 阅读 · 0 评论 -
DataFrame写入mySql
1.java的jdbc可以自动创建数据库中的表,属性可以从配置文件获得(见其他博客)val props = new Properties() props.setProperty("driver","com.mysql.jdbc.Driver") props.setProperty("user","root") props.setProperty("password","...原创 2019-11-16 17:23:40 · 949 阅读 · 0 评论 -
DataFrame转化为json格式的两种方式
1.隐式转化时指定匹配的字段//由rdd格式化类型为String类型//在toDf的过程中匹配字段//coalesce指定了输出文件个数//mode(SaveMode.Overwrite)指定文件的存储类型为覆盖rddResult.map(tp=>(tp._1,tp._2(0),tp._2(1),tp._2(2),tp._2(3),tp._2(4),tp._2(5),tp._2(6...原创 2019-11-16 16:56:10 · 4318 阅读 · 0 评论 -
scala用配置文件的方式向代码中传送变量
1.在resources文件夹下面创建application.conf文件,文件的名字要完全一样2.写一个helper类来获取字段导入依赖 <dependency> <groupId>com.typesafe</groupId> <artifactId>config</artifac...原创 2019-11-15 20:48:02 · 215 阅读 · 0 评论 -
Spark两种转化为df的方法
1.使用Row类与StructType类转化代码:val frame: DataFrame = session.createDataFrame(rowRDD,logSchema.schema)1>rowRDD将array放进Row中形成Rddval rowRDD: RDD[Row] =rddAll.map(arr => Row( arr(0), ar...原创 2019-11-15 20:19:49 · 2148 阅读 · 0 评论 -
Spark对于数据输入输入文件的相关优化操作
1.指定了输入参数,在代码的开头判断传入数组的长度def main(args: Array[String]): Unit = { if (args.length < 2) { println("参数错误") return } }2.对于输出文件的已经存在问题1>.删除指定输出路径的文件//判断输出文件是否存在 val file = n...原创 2019-11-15 20:07:58 · 153 阅读 · 0 评论 -
用kafka代替flume的source与channel
flume与kafkaFlume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API。Kafka:Kafka是一个可持久化的分布式的消息队列。Flume:可以使用拦截器实时处理数据。这些对数据屏蔽或者过量是很有用的。Kafka:需要外部的流处理系统才能做到。选择方式flume更适合流式数据的处理与向hdfs存储文件。kafka更适合被多种类型的消费者消费...原创 2019-11-12 22:44:20 · 647 阅读 · 0 评论 -
Spark模拟实现对RDD数据流的处理
idea端模拟了预先将10个(1~10)的数组加入队列流,再进行处理package phasetestimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.{Seconds, StreamingContext}object RddQu {...原创 2019-11-08 14:57:45 · 423 阅读 · 0 评论 -
模拟统计spark统计某tcp客户的scoket文件
选择在idea中创建与运行指定了虚拟机与端口package com.uuimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object SparkStreaming1 { def main(args: Array[String]): Unit ...原创 2019-11-08 14:35:37 · 74 阅读 · 0 评论 -
spark定时定要求统计某个文件夹下的文本数据
spark客户端下url只写到目标文件夹。对于数据的统计。只对新创建的文件的内容进行操作。本代码为统计文件的单词数量import org.apache.spark.streaming._val ssc = new StreamingContext(sc, Seconds(20))val lines = ssc.textFileStream("file:////opt/rh/data/st...原创 2019-11-07 19:54:15 · 196 阅读 · 0 评论 -
spark文件读取与Sql
spark读取普通文本文件与json格式文件 val conf = new SparkConf().setAppName("sort").setMaster("local[*]") val sc = new SparkContext(conf) val sprak = SparkSession.builder().config(conf).getOrCreate() i...原创 2019-11-07 19:43:02 · 605 阅读 · 0 评论 -
spark的多级排序
要求:对于一个给定的文件,请对数据进行排序,首先根据第1列数据降序排序,如果第1列数据相等,则根据第2列数据降序排序。以此类比文件5 3 41 6 84 9 788 3 335 7 345 7 325 6 83 2 34做法自定义一个类继承Ordered与Serializable。作为要排序对象的key值需要的列数不同。对应的参数列表不同class MaySort...原创 2019-11-06 20:12:43 · 547 阅读 · 0 评论 -
spark读取json数据
利用json 的包来将json格式的文件转化为map类型scala> import scala.util.parsing.json.JSONscala> rdd.map(s => JSON.parseFull(s)).collect.foreach(println)Some(Map(name -> Michael))Some(Map(name -> And...原创 2019-11-06 16:39:10 · 547 阅读 · 0 评论 -
自定义分区
分区原则RDD分区的一个原则是使得分区的个数尽量等于集群中的CPU核心对于不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、Mesos模式),都可以通过设置spark.default.parallelism这个参数的值,来配置默认的分区数目,一般而言:本地模式默认为本地机器的CPU数目,若设置了local[N],则默认为N依赖 <dependencie...原创 2019-11-06 15:47:18 · 369 阅读 · 0 评论 -
kafka客户端命令行的操作
客户端操作都在kafka目录下(开启出现问题都记录在/opt/module/kafka/nohup.out文件下,可查看解决。)启动并挂入后台nohup bin/kafka-server-start.sh config/server.properties &查看当前kafka中的主题bin/kafka-topics.sh --zookeeper hadoop101:2181 -...原创 2019-10-28 08:42:22 · 1180 阅读 · 0 评论 -
zookeeper的客户端与api操作
客户端操作ls /查看根下的节点ls /zhiye查看节点下的节点create /temp “one”新建一个节点create /temp/ttemp “two”在节点下新建一个节点get /temp获取节点的信息。名称与时间等create -e /tem “one”创建临时的节点。重启zkClient会消失create -s /app2/aa 888创建带编号的节点...原创 2019-10-27 00:04:58 · 114 阅读 · 0 评论 -
相同字母的统计,使用map来实现
模拟了一个重复发射相同语句的execute过程。具体解释见https://blog.csdn.net/qq_44698610/article/details/102755830依赖:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2019-10-26 14:38:53 · 156 阅读 · 0 评论 -
strom的API的使用
整体的思路由spout来发送任务给bolt,spout可以设置为多个,bolt也可以设置为多个。再由driver来统一管理。操作步骤项目结构(可以有多个bolt来分级处理)依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2019-10-26 14:34:00 · 167 阅读 · 0 评论 -
log4j日志
依赖<!--日志的依赖--> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.17</version> </dependency...原创 2019-09-29 14:43:24 · 262 阅读 · 0 评论 -
额外查询&延迟加载
基于一对多的查询:例:一个部门中有多个员工。在部门类中存在员工的集合。查询部门的对象时,返回的集合类型进行list的封装核心代码对单一个类型为list的属性的封装collection :单独的对象用associate。集合用collection。property:类中list对象的名字ofType:list的泛型colum:传入额外sql的字段名select:额外方法的映射接...原创 2019-09-29 16:52:53 · 195 阅读 · 0 评论 -
mybatis别名的配置(两种方法)
对于mapper的映射xml文件sql语句中存在着resultType。修改前:写了接受实体类的全限定名在mybatis的配置文件中添加位置需要添加在configtion的标签下面;<configuration> <typeAliases> <typeAlias type="com.uu.bean.News" alias="jj"...原创 2019-09-28 15:06:34 · 1522 阅读 · 0 评论 -
maven远程镜像与本地仓库的配置
在Maven安装路径下,config文件夹中,修改settings.xml配置文件.配置localRepository标签的值.本地仓库的配置<localRepository>D:mav/repository</localRepository>远程镜像的配置找到mirros标签,国内配置为阿里云镜像。<mirrors> <mir...原创 2019-09-28 14:06:57 · 167 阅读 · 0 评论 -
solr查询的数据转化与My97DatePicker日历插件的使用
引入js页面中<script src="./js/My97DatePicker/WdatePicker.js"></script>在需要的标签上添加onclick的属性设置了传入的字段形式。WdatePicker({dateFmt:‘yyyy-MM-dd HH:mm:ss’})从:<input class="Wdate"style = "height: 25...原创 2019-09-27 23:17:06 · 100 阅读 · 0 评论 -
Mybatis的搭建,配合逆向工程
1.导入依赖,详细见代码备注<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://ma...原创 2019-09-18 21:33:58 · 84 阅读 · 0 评论 -
使用配置类的方式来获取配置文件的内容
1.在resource文件夹下放置文件name=jack2.配置配置类package com.uu;import jdk.nashorn.internal.objects.annotations.Property;import org.springframework.beans.factory.annotation.Value;import org.springframework...原创 2019-09-08 21:47:40 · 420 阅读 · 0 评论 -
分页插件的使用
js,外部引入js页面中/*! * jQuery pagination plugin v1.2.5 * http://esimakin.github.io/twbs-pagination/ * * Copyright 2014, Eugene Simakin * Released under Apache 2.0 license * http://apache.org/license...原创 2019-09-27 18:20:41 · 182 阅读 · 0 评论 -
sorl的分页数据设计
对于一个完整的页面需要七个参数当前页总页数页面数据上页页码下页页码总页码每页显示条数不同页码数的计算方法在代码中;全参构造:此处的类中的参数会产生相互的依赖。需要用全参构造来实现;空参构造:在后台接受该类的数据的时候,要先初始化出来一个对象。需要一个空参数的构造方法。package com.uu.bean;import java.io.Serializable;...原创 2019-09-27 15:55:15 · 103 阅读 · 0 评论 -
将数据写入solr搜索服务器中
依赖<!--solr的依赖--> <dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-solrj</artifactId> <version>4.1...原创 2019-09-26 19:46:23 · 441 阅读 · 0 评论 -
ssm整合需要的配置内容
依赖<properties> <project.spring.version>5.0.0.RElEASE</project.spring.version> </properties> <dependencies> <dependency> <groupId>com.git...原创 2019-10-06 10:48:11 · 308 阅读 · 0 评论 -
solr的多样化查询
由需要确定查询的方式。范围查找是根据字段的字典顺序进行的查找//词条查询 @Test public void testTerm() throws Exception{ /* * 字段名:关键字 * 在查询时,会对关键字进行分词 * * */ SolrQuery query =...原创 2019-09-21 16:44:03 · 141 阅读 · 0 评论