自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(140)
  • 收藏
  • 关注

原创 大数据之数据仓库建设(二)

四、DWS 层开发

2021-07-19 23:40:25 2391 2

原创 大数据之数据仓库建设(一)

一、数据仓库:一个面向分析、反映历史变化的的数据仓库;中小公司数据量:一天1000万条数据,17G;一个月500G,一年6T数据量;数据仓库技术:1、传统数仓一般是采用关系型数据库;2、大数据领域中:使用HDFS做存储;使用spark 或mapreduce做运算、使用spark sql或者hive做sql引擎;impala既可以做运算又可是做sql引擎;click house即可以做存储,又可以做运算、sql引擎;分层设计:数据仓库中的数据表,往往是分层管理、分层计算的:ODS 层:操

2021-07-04 17:43:10 2885 3

原创 序列化和反序列化的详解

序列化: 就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输;反序列化: 就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。1、Java 序列化是一个重量级序列化框架(Serializable),它会把这个对象的方方面面的信息都序列化出去,产生的二进制序列体积臃肿庞大,但是信息很全。public class SerDeDemo { public static void main(String[] args) throws

2021-07-02 19:50:20 2411 6

原创 Jpa的criteriaBuilder.in 使用

Criteria意为“标准、准则”,在数据库中翻译为“查询条件”,所以CriteriaBuider就是Java提供的、用来生成查询条件的“标准生成器”。Criteria的in方法对应SOL语句中的IN关键字。比如:select * from t_olympic_staiums y where y.id in(1,2,3,4,5)网上查询到例子为:List<Predicate> predicates = new ArrayList<>();if(companyEnt

2021-07-02 10:53:28 4565

原创 BI工具Superset的搭建与使用

分析平台可分为:1、现成的商业版桌面BI软件,kettel,easyui、powerbi;2、自己使用java或者python开发web平台;3、开源免费版的web平台,比如superset;Superset 快速、轻量、直观,并加载了选项,使所有技能集的用户都可以轻松探索和可视化他们的数据,从简单的折线图到高度详细的地理空间图表,是由python开发的web系统。更多java、大数据学习面试资料,请扫码关注我的公众号:...

2021-06-20 21:53:01 1296

原创 日期插件datepicker的使用

1、下载日期插件datepicker的moment.js、jquery-datePicker.min.js、index.css2、编写日期插件样式<div class="date_select_box_resouce" style="line-height: 80px;"> <div class="date_select_title_resouce">日期:</div> <div class="date_select_value_r

2021-06-18 15:04:00 977

原创 CSS实现隐藏滚动条但可以滚动

今天记录一个很小的问题,在工作之中会经常遇到的,当页面元素溢出的时候会产生滚动条,这个时候需要页面样式优化:CSS实现隐藏滚动条但是可以滚动。通过设置高和voerflow,实现滚动条效果:. page_list_box{ height: 210px; overflow-y:auto;}各个浏览器隐藏滚动条:谷歌浏览器:. page_list_box ::-webkit-scrollbar{  display:none;}火狐浏览器:. page_list_

2021-06-09 21:04:30 5766

原创 elasticsearch安装教程

在多台机器上执行下面的命令#es启动时需要使用非root用户,所有创建一个bigdata用户:useradd bigdata#为hadoop用户添加密码:echo 123456 | passwd --stdin bigdata#将bigdata添加到sudoersecho "bigdata ALL = (root) NOPASSWD:ALL" | tee /etc/sudoers.d/bigdatachmod 0440 /etc/sudoers.d/bigdata#解决sudo: so

2021-05-30 08:47:11 314

原创 大数据之Logstash

Logstash是一款开源的数据收集引擎,具备实时管道处理能力。简单来说,logstash作为数据源与数据存储分析工具之间的桥梁,结合ElasticSearch以及Kibana,能够极大方便数据的处理与分析。通过200多个插件,logstash可以接受几乎各种各样的数据。包括日志、网络请求、关系型数据库、传感器或物联网等.Logstash工作过程如上图,Logstash的数据处理过程主要包括:Inputs,Filters,Outputs 三部分.Inputs:用于读取数据源,相当于flume的so

2021-05-30 07:56:52 622

原创 大数据之游戏项目

游戏项目更多java、大数据学习面试资料,请扫码关注我的公众号:

2021-05-29 10:09:24 1181

原创 Java设计模式:23 种设计模式的通俗解释

01 工厂方法追 MM 少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是 MM 爱吃的东西,虽然口味有所不同,但不管你带 MM 去麦当劳或肯德基,只管向服务员说「来四个鸡翅」就行了。麦当劳和肯德基就是生产鸡翅的 Factory 工厂模式:客户类和工厂类分开。消费者任何时候需要某种产品,只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时,工厂类也要做相应的修改。如:如何创建及如何向客户端提供。02 建造者模式MM 最爱听的就是「我爱你」这句话了,见到不同地方的 MM,要能够用她们的方

2021-05-23 10:28:05 335

原创 大数据之Spark Streaming

大数据之Spark Streaming

2021-05-11 23:01:04 407 2

原创 大数据之SparkSQL

大数据之sparkSQL

2021-05-09 22:21:33 728

原创 大数据之Spark提交任务

一、Spark自定义排序: 比较女孩package cn.itcast.spark.day3import org.apache.spark.{SparkConf, SparkContext} object OrderContext { implicit val girlOrdering = new Ordering[Girl] { override def compare(x: Girl, y: Girl): Int = { if(x.faceValue >

2021-05-06 23:21:11 546

原创 大数据之Spark RDD

Spark的算子分为两类:一类叫做Transformation(转换),延迟加载,它会记录元数据信息,当计算任务触发Action,才会真正开始计算;一类叫做Action(动作);一个算子会产生多个RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。一、RDD创建方式方式一:通过HDFS支持的文件系统系统创建,RDD里没有真正要计算的数据,只是记录了一下元数据方式二:通

2021-05-04 15:49:37 525

原创 大数据之Spark

Spark是一种快速、通用、可扩展的大数据计算引擎,是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。

2021-04-26 22:08:36 921

原创 大数据之Akka

Scaka里,Actor被废弃,由Akka代替。分布式架构底层通信都是通过RPC实现的,Spark的RPC是通过Akka类库实现的,而Akka是用Scala语言开发,基于Actor实现。一、Akka的角色ActorSystem: 当前进程中Actor的老大,负责创建并监控actor; 它是单例的actor: 负责通信二、实现一个简单的RPC框架1、编写一个masterpackage cn.itcast.rpcimport akka.actor.{Actor, ActorRef, Acto

2021-04-20 07:20:24 343

原创 大数据之Scala并发编程

大数据之Scala(2)

2021-04-10 21:49:48 1393

原创 大数据之Scala

Scala是一种多范式的编程语言,具有面向对象和函数式特点,它运行在jvm平台上。Scala的特点:优雅、开发速度快、能融合到Hadoop生态圈。

2021-04-01 21:17:24 807

原创 后台解析json格式数据

格式一:String pictureData = BaseRestletClient.rquestUrl(fielUrl, content);JSONArray jsonArray = JSONArray.fromObject(pictureData);String status = (String) jsonArray.getJSONObject(0).get(“resultHint”);if(status.equals(“调用成功!”)){Object dataContent = jsonA

2021-03-24 17:39:42 1271

原创 BigDecimal如何做加法除法

//超出double精准度后,如何做加法和除法BigDecimal sumlong = BigDecimal.ZERO;BigDecimal sumlat= BigDecimal.ZERO;for (int i = 0; i < split.length-1; i++) {String[] longlat = split[i].split(",");BigDecimal longitude = new BigDecimal(longlat[0].replace(" “, “”).replac

2021-03-24 17:16:33 712

原创 大数据之HBase

HBase是一个高可靠性、高性能、列式分布式数据库.HBase基于HDFS来存储并处理大型的数据,没有update,但可以追加合并数据;可以有多个主节点 Hmaster, 可以有多个从节点 Hregionserver, 是N+N关系;特点:写快读慢在需要实时读写,随机访问超大规模数据集时,可以使用HBase.hbase集群中的角色1、一个或者多个主节点,Hmaster2、多个从节点,HregionServer一、HBase与行式数据区别:1、行式数据库是一行一行的查数据,进行匹配;列式数据库

2021-03-09 22:08:27 584

原创 SpringBoot启动报错:找不到或无法加载主类

错误信息:控制台打印红色错误:找不到或无法加载主类 com.xxx.Application

2021-03-06 17:26:42 1467

原创 大数据之Mapreduce(加强)

1、倒序索引实现

2021-01-31 19:27:35 359

原创 大数据之YARN

yarn: 运算资源(jar包、内存、cpu、配置文件)调度系统。一、mapreduce提交job运行在yarn流程:yarn的调度机制有:队列(先进先出)、fair、capacity;yarn只负责程序运行所需资源的分配回收等调度任务,与应用程序的内部运行机制无关,所以yarn成为了一个通用的资源调度平台。比如mr/spark/storm,都可以借助它来实现。注: hadoop1没有yarn的概念,但是有一个jobTracker和TaskTracher两种角色。...

2021-01-22 22:54:20 1274

原创 ajax传参数到后台获取的方法

方式一:$.ajax({type:“post”,dataType:“json”,url:“DataSourceCheck/refreshDataSource”,data:{dataSourceId:dsId},success: function(data){//你的逻辑。。}});后台获取:@RequestMapping(“refreshDataSource”)@ResponseBodypublic boolean refreshDataAction(String dataSour

2021-01-20 16:47:42 3998

原创 nginx+red5流媒体服务器搭建

nginx+red流媒体服务器搭建

2020-11-04 17:40:30 1374

原创 下载各省、市、县的行政区划边界数据

下载地址:https://gallery.echartsjs.com/editor.html?c=xmCAi_XNuJ

2020-10-26 16:18:49 2911

原创 shell脚本定时采集日志数据

#!/bin/bash #set java env export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH #set hadoop env export HADOOP_HOME=/home/hadoop/app/h

2020-10-09 23:08:53 1104

原创 大数据之Kafka消息队列

Kafka是一个分布式消息队列:生产者和消费者功能,由小语言scala写成。

2020-09-08 07:18:50 2102

原创 storm 通信机制

storm 提交任务流程

2020-08-23 22:37:56 569

原创 大数据之storm

大数据之storm

2020-08-23 15:03:30 1192

原创 大数据之数据模型

一、星型摸型它是由一个事实表和一组维表组成,每个维表都有一个维作为主键,所有这些维的主键组成事实表的主键。二、雪花模型当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解像多个雪花连接在一起,故而称为雪花模型。三、数据仓库数据仓库主要用于数据挖掘和数据分析,辅助领导做决策,(从事业务建模工资比较高)。四、数据仓库和数据库区别1、数据仓库是集成的:将数据原来分散的数据库数据抽取处理的;2、数据仓库的数据一般不需要修改的;3、仓库里的数据是随着时间变化而变化的。

2020-08-23 00:18:33 3345

原创 大数据之azkaban任务调度器

一、azkaban介绍azkaban是一个工作流调度器。一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。二、安装azkaban三、azkaban示例...

2020-08-22 23:55:21 1221

原创 大数据之flume数据采集

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。它可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一、flume结构Flume分布式系统中最核心的角色是agent,每一个agent相当于一个数据传递员,内部有三个组件:Source::采集源,用于跟数据源对接,以获取数据Sink::下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据Channel

2020-08-22 22:51:46 12197

原创 Hive进行分区分桶

Hive分桶

2020-08-22 22:01:34 6561

原创 hadoop-ha集群搭建

HDFS使用QJM实现HA集群

2020-08-20 07:25:20 995

原创 Hive的安装与配置

大数据之Hive

2020-08-17 21:21:05 494

原创 selenium获取页面数据入数据库

Selenium是一个用于Web应用程序测试的工具,但是也可以爬取页面中的数据。开发环境是内网(局域网),项目工程是web项目,jdk使用的1.8,tomcat使用的 8。web项目: 启动时使用tomcat, tomcat会先加载web.xml配置文件里内容;maven项目: 和web项目的区别是,需要的jar包,交给maven维护,不用自己导入jar包;java项目: 启动时,使用main方法,没有web.xml配置文件;一、创建项目web.xml:web项目的配置文件,随着tomcat启

2020-08-17 16:08:53 1483 1

原创 大数据之Mapreduce

大数据之mapreduce

2020-08-11 06:48:37 655

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除