- 博客(42)
- 收藏
- 关注
原创 Spark内核
Spark2.x版本使用Netty通讯框架作为内部通讯组件。Spark 基于Netty新的RPC框架借鉴了Akka的中的设计,它是基于Actor模型,如下图所示:Spark通讯框架中各个组件(Client/Master/Worker)可以认为是一个个独立的实体,各个实体之间通过消息来进行通信。
2024-08-12 08:45:49 1063
原创 大数据技术之Spark
Spark是一种基于内存的快速,通用,可扩展的大数据分析计算引擎RDD 叫做弹性分布式数据,是Spark中最基本的数据处理模型。
2024-08-10 11:15:41 434
原创 HBase
Hbase的功能和应用场景是什么?功能:能够实现实时分布式随机数据存储场景:大量的结构化数据,实时,随机,持久化存储Hbase的基本存储结构是什么?设计:分布式大量数据实时存储分布式内存【进程】+分布式磁盘【HDFS】实现:NameSpace:类似于数据库概念,访问表的时候必须加上NSTable:就是表概念,表是分布式的,一张表可以有多个分区Region,每个分区可以 存储在不同的节点上。
2024-05-30 11:02:47 1281
原创 大数据技术之Scala语言,只需一篇文章即可,教你学会什么是Scala,教你如何使用Scala
Scala的集合有三大类:序列Seq,集Set,映射Map,所有的集合都扩展自Iterable特质。对于几乎所有的集合类,Scala都同时提供了可变和不可变版本,可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素。而不可变集合类,相比之下,永远不会改变。不过,你仍然可以模拟添加,移除或更新操作。但是这些操作将在每一种情况下都返回一个新的集合,同时使原来的集合不发生改变,所以这里的不可变并不是变量本身的值不可变,而是变量指向的那个内存地址不可变。
2024-05-28 17:45:14 3461
原创 究极完整版!!Centos6.9安装最适配的python和yum,附带教大家如何写Centos6.9的yum.repos.d配置文件。亲测可行!
究极完整版!!Centos6.9安装最适配的python和yum,附带教大家如何写Centos6.9的yum.repos.d配置文件。亲测可行!
2024-05-16 13:09:05 665
原创 Apache 辅助系统工具
概述flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程,或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。核心组件source:用于对接各个不同的数据源sink: 用于对接各个不同存储数据的目的地(数据下沉地)channle:用于中间临时存储缓存数据运行机制flume本身是java程序,在需要数据采集的机器上启动agent进程agent进程里面包含了:source sink channel。
2024-01-25 16:02:24 1454
原创 Javaweb 服务
会话:浏览器和服务器之间的多次请求和响应,为了实现一些功能,浏览器可能会产生多次请求和响应,多次响应加在一起就称之为浏览器和服务器之间的一次会话会话过程中产生的一些数据,可以通过会话技术(Cookie和Session保存)。Cokkie:客服端会话管理技术,把要共享的数据保存到客户端,每次请求时,把会话信息带到服务器端,从而实现多次请求的数据共享。
2024-01-25 15:59:22 817
原创 Apache Shiro 安全框架
Realm域:Shiro从Realm获取安全数据(如用户、角色、权限),就是说SecurityManager要验证用户身份,那么它需要从Realm获取相应的用户进行比较以确定用户身份是否合法;也需要从Realm得到用户相应的角色/权限进行验证用户是否能进行操作;可以把Realm看成DataSource,即安全数据源/*** 自定义Realm 处理登录 权限*/@Autowired@Autowired@Autowired/*** 授权*/@Override// 角色列表。
2024-01-25 15:54:56 1581
原创 网站流量日志分析
js和html页面耦合在一起 不利于后续js维护把js单独提取变成一个文件 然后通过src属性引入页面 进行所谓解耦合一台服务器身兼多职 压力过大 降低服务器请求压力单独的去部署服务器 专门用于采集数据的请求响应可能会产生跨域问题(限制js跨域的数据发送)以请求图片的形式 把采集的数据拼接成为图片的参数 发送到指定的服务器上去 绕开js跨域问题。
2023-12-06 22:07:39 1289
原创 如何解决nginx在记录post数据时 中文字符转成16进制的问题
在遇到错误得时候,我们往往不知道该怎么搜索此类答案,我想大家应该都会把错误信息放在搜索引擎中搜索,关键字要随着搜索得到的信息从而不断变化,才能往根源得问题靠近。在搜索引擎给出的大量信息,要懂得抓取有用的信息,不能忽视已经给出问题答案的信息,即使信息比较久远。像阶段1得情况,我如果仔细阅读上面得解答信息,应该会很快得找到问题所在的根源。Nginx/* 这是十六进制字符表 *//* 这是ASCII码表,每一位表示一个符号,其中值为1表示此符号需要转换,值为0表示不需要转换 *//*?>=
2023-11-20 18:21:13 301
原创 Apache Impala
因此在安装impala的时候,需要使用rpm包来进行安装。impala 的配置目录为/etc/impala/conf,这个路径下面需要把 core-site.xml,外部命令是指不需要进入impala-shell交互命令行就可以执行的命令,可以在启动 impala-通过配置/etc/default/impala 中可以发现已经指定了 mysql 驱动的位置名字。在所有需要安装impala的节点上,因为impala需要引用hive的依赖包。服务并且配置好,是决定 impala 是否启动成功并使用的前提。
2023-11-06 21:18:51 405
原创 Hive的高级操作以及调优
2.1 概述:Hive 自带了一些函数,比如:max/min等,当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF).根据用户自定义函数类别分为以下三种:一进一出聚集函数,多进一出countmaxmin一进多出如lateralviewexplore()编程步骤:继承org.apache.hadoop.hive.ql.UDF需要实现evaluate函数;evaluate函数支持重载;注意事项。
2023-10-31 18:53:14 80
原创 数据仓库Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。hive可以理解为一个将SQL转化为MapReduce的任务工具。
2023-10-28 17:48:01 76
原创 Hadoop高可用环境搭建文档
node03机器执行以下命令启动jobHistory。将第一台机器的安装包发送到其他机器上。node01机器查看hdfs状态。node02机器查看hdfs状态。第一台机器执行以下命令进行解压。node01机器执行以下命令。更改node02的rm2。第一台机器执行以下命令。第一台机器执行以下命令。第一台机器执行以下命令。第一台机器执行以下命令。三台机器上共同创建目录。第二台机器执行以下命令。三台机器执行以下命令。node02上面执行。node03上面执行。node03上面执行。node02上面执行。
2023-10-19 10:44:27 43
原创 HDFS的介绍与使用
在Hadoop 中,NameNode 所处的位置是非常重要的,整个HDFS文件系统的元数据信息都由NameNode 来管理,NameNode的可用性直接决定了Hadoop 的可用性,一旦NameNode进程不能工作了,就会影响整个集群的正常使用。2.在典型的HA集群中,两台独立的机器被配置为NameNode。在工作集群中,NameNode机器中的一个处于Active状态,另一个处于Standby状态。Active NameNode负责群集中的所有客户端操作,而Standby充当从服务器。
2023-10-18 23:32:16 628
原创 Hadoop的准备工作:安装,配置文件修改以及集群启动
Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
2023-10-16 15:16:58 152
原创 linux上yum 安装报错
知道是yum源的问题,但是找了很长时间都没有找到一个能用的,再极度不服的心理状态下终于有了回报:get到一个yum源,分享一下,希望对有需要得人有用。这里的问题是版本问题。
2023-10-12 01:20:22 661
原创 Zookeeper组件的介绍,安装和基本使用。
Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题Zookeeper 本质上是一个分布式文件系统, 适合存放小文件,也可以理解为一个数据库。
2023-10-11 10:46:42 83
原创 JVM优化
程序的运行必然需要申请内存资源,无效的对象资源如果不及时处理就会一直占有内存资源,最终将导致内存溢出,所以对内存资源的管理是非常重要了。
2023-09-25 16:43:06 93 1
原创 算法题求阶乘
5的阶乘结果有一个0,10的阶乘结果有2个0,求末尾的9位数字,只需要算到39!末尾是9个0,再加对结果没有影响。System.out.print("请输入一个整数:");有一个规律数的阶乘每多5 阶乘结果多一个0。
2023-04-11 17:21:36 94
原创 Vue前端框架
Vue是一套构建用户界面的渐进式前端框架。只关注视图层,并且非常容易学习,还可以很方便的与其它库或已有项目整合。通过尽可能简单的API来实现响应数据的绑定和组合的视图组件。特点 易用:在有HTMLCSSJavaScript的基础上,快速上手。灵活:简单小巧的核心,渐进式技术栈,足以应付任何规模的应用。性能:20kbmin+gzip运行大小、超快虚拟DOM、最省心的优化。Vue核心对象:每个Vue程序都是从一个Vue核心对象开始的选项列表;})选项列表el选项:用于接收获取到页面中的元素。
2023-03-29 22:02:45 383
原创 步入java web 首先给大家分享一下HTML的相关内容,这才算是接触到了网页吧,加油,一起努力吧!
标签分类:开始和结束标签:自闭和标签:如:换行标签: ,水平分割线标签:块级元素:在页面中以块的形式展现,自己独占一行,后面的内容会自动换行。行内元素:在页面中以行的形式套现,不会换行:是一个通用的内容容器,没有特殊寓意,用来对其他元素进行分组,用于样式化相关需求:是一个同意的内容同期,没有特殊语义,一般用来编织元素以达到某种样式。
2023-02-14 14:28:56 64
原创 初识linux。这里提供一些基础的指令,以便小白入门学习。(大部分命令选项都可以输入命令本身查看,多试试就行啦。)
初识linux。这里提供一些基础的指令,以便小白入门学习。(大部分命令选项都可以输入命令本身查看,多试试就行啦。)
2022-12-09 21:40:46 310 2
空空如也
hive启动报错nosuchmethod
2024-08-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人