- 博客(140)
- 收藏
- 关注
原创 大数据之数据仓库建设(一)
一、数据仓库:一个面向分析、反映历史变化的的数据仓库;中小公司数据量:一天1000万条数据,17G;一个月500G,一年6T数据量;数据仓库技术:1、传统数仓一般是采用关系型数据库;2、大数据领域中:使用HDFS做存储;使用spark 或mapreduce做运算、使用spark sql或者hive做sql引擎;impala既可以做运算又可是做sql引擎;click house即可以做存储,又可以做运算、sql引擎;分层设计:数据仓库中的数据表,往往是分层管理、分层计算的:ODS 层:操
2021-07-04 17:43:10
2885
3
原创 序列化和反序列化的详解
序列化: 就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输;反序列化: 就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。1、Java 序列化是一个重量级序列化框架(Serializable),它会把这个对象的方方面面的信息都序列化出去,产生的二进制序列体积臃肿庞大,但是信息很全。public class SerDeDemo { public static void main(String[] args) throws
2021-07-02 19:50:20
2411
6
原创 Jpa的criteriaBuilder.in 使用
Criteria意为“标准、准则”,在数据库中翻译为“查询条件”,所以CriteriaBuider就是Java提供的、用来生成查询条件的“标准生成器”。Criteria的in方法对应SOL语句中的IN关键字。比如:select * from t_olympic_staiums y where y.id in(1,2,3,4,5)网上查询到例子为:List<Predicate> predicates = new ArrayList<>();if(companyEnt
2021-07-02 10:53:28
4565
原创 BI工具Superset的搭建与使用
分析平台可分为:1、现成的商业版桌面BI软件,kettel,easyui、powerbi;2、自己使用java或者python开发web平台;3、开源免费版的web平台,比如superset;Superset 快速、轻量、直观,并加载了选项,使所有技能集的用户都可以轻松探索和可视化他们的数据,从简单的折线图到高度详细的地理空间图表,是由python开发的web系统。更多java、大数据学习面试资料,请扫码关注我的公众号:...
2021-06-20 21:53:01
1296
原创 日期插件datepicker的使用
1、下载日期插件datepicker的moment.js、jquery-datePicker.min.js、index.css2、编写日期插件样式<div class="date_select_box_resouce" style="line-height: 80px;"> <div class="date_select_title_resouce">日期:</div> <div class="date_select_value_r
2021-06-18 15:04:00
977
原创 CSS实现隐藏滚动条但可以滚动
今天记录一个很小的问题,在工作之中会经常遇到的,当页面元素溢出的时候会产生滚动条,这个时候需要页面样式优化:CSS实现隐藏滚动条但是可以滚动。通过设置高和voerflow,实现滚动条效果:. page_list_box{ height: 210px; overflow-y:auto;}各个浏览器隐藏滚动条:谷歌浏览器:. page_list_box ::-webkit-scrollbar{ display:none;}火狐浏览器:. page_list_
2021-06-09 21:04:30
5766
原创 elasticsearch安装教程
在多台机器上执行下面的命令#es启动时需要使用非root用户,所有创建一个bigdata用户:useradd bigdata#为hadoop用户添加密码:echo 123456 | passwd --stdin bigdata#将bigdata添加到sudoersecho "bigdata ALL = (root) NOPASSWD:ALL" | tee /etc/sudoers.d/bigdatachmod 0440 /etc/sudoers.d/bigdata#解决sudo: so
2021-05-30 08:47:11
314
原创 大数据之Logstash
Logstash是一款开源的数据收集引擎,具备实时管道处理能力。简单来说,logstash作为数据源与数据存储分析工具之间的桥梁,结合ElasticSearch以及Kibana,能够极大方便数据的处理与分析。通过200多个插件,logstash可以接受几乎各种各样的数据。包括日志、网络请求、关系型数据库、传感器或物联网等.Logstash工作过程如上图,Logstash的数据处理过程主要包括:Inputs,Filters,Outputs 三部分.Inputs:用于读取数据源,相当于flume的so
2021-05-30 07:56:52
622
原创 Java设计模式:23 种设计模式的通俗解释
01 工厂方法追 MM 少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是 MM 爱吃的东西,虽然口味有所不同,但不管你带 MM 去麦当劳或肯德基,只管向服务员说「来四个鸡翅」就行了。麦当劳和肯德基就是生产鸡翅的 Factory 工厂模式:客户类和工厂类分开。消费者任何时候需要某种产品,只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时,工厂类也要做相应的修改。如:如何创建及如何向客户端提供。02 建造者模式MM 最爱听的就是「我爱你」这句话了,见到不同地方的 MM,要能够用她们的方
2021-05-23 10:28:05
335
原创 大数据之Spark提交任务
一、Spark自定义排序: 比较女孩package cn.itcast.spark.day3import org.apache.spark.{SparkConf, SparkContext} object OrderContext { implicit val girlOrdering = new Ordering[Girl] { override def compare(x: Girl, y: Girl): Int = { if(x.faceValue >
2021-05-06 23:21:11
546
原创 大数据之Spark RDD
Spark的算子分为两类:一类叫做Transformation(转换),延迟加载,它会记录元数据信息,当计算任务触发Action,才会真正开始计算;一类叫做Action(动作);一个算子会产生多个RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。一、RDD创建方式方式一:通过HDFS支持的文件系统系统创建,RDD里没有真正要计算的数据,只是记录了一下元数据方式二:通
2021-05-04 15:49:37
525
原创 大数据之Spark
Spark是一种快速、通用、可扩展的大数据计算引擎,是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。
2021-04-26 22:08:36
921
原创 大数据之Akka
Scaka里,Actor被废弃,由Akka代替。分布式架构底层通信都是通过RPC实现的,Spark的RPC是通过Akka类库实现的,而Akka是用Scala语言开发,基于Actor实现。一、Akka的角色ActorSystem: 当前进程中Actor的老大,负责创建并监控actor; 它是单例的actor: 负责通信二、实现一个简单的RPC框架1、编写一个masterpackage cn.itcast.rpcimport akka.actor.{Actor, ActorRef, Acto
2021-04-20 07:20:24
343
原创 大数据之Scala
Scala是一种多范式的编程语言,具有面向对象和函数式特点,它运行在jvm平台上。Scala的特点:优雅、开发速度快、能融合到Hadoop生态圈。
2021-04-01 21:17:24
807
原创 后台解析json格式数据
格式一:String pictureData = BaseRestletClient.rquestUrl(fielUrl, content);JSONArray jsonArray = JSONArray.fromObject(pictureData);String status = (String) jsonArray.getJSONObject(0).get(“resultHint”);if(status.equals(“调用成功!”)){Object dataContent = jsonA
2021-03-24 17:39:42
1271
原创 BigDecimal如何做加法除法
//超出double精准度后,如何做加法和除法BigDecimal sumlong = BigDecimal.ZERO;BigDecimal sumlat= BigDecimal.ZERO;for (int i = 0; i < split.length-1; i++) {String[] longlat = split[i].split(",");BigDecimal longitude = new BigDecimal(longlat[0].replace(" “, “”).replac
2021-03-24 17:16:33
712
原创 大数据之HBase
HBase是一个高可靠性、高性能、列式分布式数据库.HBase基于HDFS来存储并处理大型的数据,没有update,但可以追加合并数据;可以有多个主节点 Hmaster, 可以有多个从节点 Hregionserver, 是N+N关系;特点:写快读慢在需要实时读写,随机访问超大规模数据集时,可以使用HBase.hbase集群中的角色1、一个或者多个主节点,Hmaster2、多个从节点,HregionServer一、HBase与行式数据区别:1、行式数据库是一行一行的查数据,进行匹配;列式数据库
2021-03-09 22:08:27
584
原创 大数据之YARN
yarn: 运算资源(jar包、内存、cpu、配置文件)调度系统。一、mapreduce提交job运行在yarn流程:yarn的调度机制有:队列(先进先出)、fair、capacity;yarn只负责程序运行所需资源的分配回收等调度任务,与应用程序的内部运行机制无关,所以yarn成为了一个通用的资源调度平台。比如mr/spark/storm,都可以借助它来实现。注: hadoop1没有yarn的概念,但是有一个jobTracker和TaskTracher两种角色。...
2021-01-22 22:54:20
1274
原创 ajax传参数到后台获取的方法
方式一:$.ajax({type:“post”,dataType:“json”,url:“DataSourceCheck/refreshDataSource”,data:{dataSourceId:dsId},success: function(data){//你的逻辑。。}});后台获取:@RequestMapping(“refreshDataSource”)@ResponseBodypublic boolean refreshDataAction(String dataSour
2021-01-20 16:47:42
3998
原创 下载各省、市、县的行政区划边界数据
下载地址:https://gallery.echartsjs.com/editor.html?c=xmCAi_XNuJ
2020-10-26 16:18:49
2911
原创 shell脚本定时采集日志数据
#!/bin/bash #set java env export JAVA_HOME=/home/hadoop/app/jdk1.7.0_51 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib export PATH=${JAVA_HOME}/bin:$PATH #set hadoop env export HADOOP_HOME=/home/hadoop/app/h
2020-10-09 23:08:53
1104
原创 大数据之数据模型
一、星型摸型它是由一个事实表和一组维表组成,每个维表都有一个维作为主键,所有这些维的主键组成事实表的主键。二、雪花模型当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解像多个雪花连接在一起,故而称为雪花模型。三、数据仓库数据仓库主要用于数据挖掘和数据分析,辅助领导做决策,(从事业务建模工资比较高)。四、数据仓库和数据库区别1、数据仓库是集成的:将数据原来分散的数据库数据抽取处理的;2、数据仓库的数据一般不需要修改的;3、仓库里的数据是随着时间变化而变化的。
2020-08-23 00:18:33
3345
原创 大数据之azkaban任务调度器
一、azkaban介绍azkaban是一个工作流调度器。一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等,为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。二、安装azkaban三、azkaban示例...
2020-08-22 23:55:21
1221
原创 大数据之flume数据采集
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。它可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一、flume结构Flume分布式系统中最核心的角色是agent,每一个agent相当于一个数据传递员,内部有三个组件:Source::采集源,用于跟数据源对接,以获取数据Sink::下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据Channel
2020-08-22 22:51:46
12197
原创 selenium获取页面数据入数据库
Selenium是一个用于Web应用程序测试的工具,但是也可以爬取页面中的数据。开发环境是内网(局域网),项目工程是web项目,jdk使用的1.8,tomcat使用的 8。web项目: 启动时使用tomcat, tomcat会先加载web.xml配置文件里内容;maven项目: 和web项目的区别是,需要的jar包,交给maven维护,不用自己导入jar包;java项目: 启动时,使用main方法,没有web.xml配置文件;一、创建项目web.xml:web项目的配置文件,随着tomcat启
2020-08-17 16:08:53
1483
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅