![](https://img-blog.csdnimg.cn/20191114103349576.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
BigData
文章平均质量分 92
BigData
吴成伟0122
开源爱好者,聚焦于大语言模型,NLP等领域,欢迎交流
展开
-
HBase源码分析与LastN最佳实践探究
06年,Google发布了《BigTable: A Distributed StorageSystem for Structured Data》,由PowerSet实现并开源,HBase是一种分布式、可扩展的大数据存储结构,如果在HBase中存放了时序数据,常常需要访问最近的若干数据LastN。本文基于上述背景进行LastN的优化实现。hbase版本基于公司hbase组件1.0.19-kwai,假设Rowkey为:分钟级时间戳,由于hbase根据rowkey的字典序从小到大存储,因此,显而易见可以使用,设置原创 2022-06-17 11:21:24 · 575 阅读 · 0 评论 -
presto Query failed :Query text length exceeds the maximum length
报错信息presto Query failed :Query text length exceeds the maximum length原因分析:查询长度超过最大值解决方法:在配置文件config.properties文件里面添加query.max-length这个配置,重启presto server生效,再次尝试发现问题解决了。coordinator=truenode-scheduler.include-coordinator=falsehttp-server.http.port=80原创 2020-09-25 19:06:46 · 2729 阅读 · 0 评论 -
为什么会有滑动窗口?
既然我们已经有了滚动窗口,为什么还需要滑动窗口呢?也就是滑动窗口的意义是什么?那么滑动窗口和滚动窗口的区别是什么?可能有人会问那我们使用将滚动窗口长度调低不也能完成该需求吗?原创 2020-05-23 12:24:11 · 1626 阅读 · 0 评论 -
Kylin常见错误及解决方法
1.kylin在build报错10020拒绝链接错误2.Aggregation is not enabled. Try the nodemanager at hadoop104:423703.org.apache.hadoop.hbase.ipc.CallTimeoutException4.java.io.FileNotFoundException5.org.apache.hadoop.hbase.client.RetriesExhaustedException6.Kylin Build执行到底1原创 2020-05-14 21:46:55 · 5378 阅读 · 4 评论 -
kafka常见报错及解决方法
-1 could not be established. Broker may not be available解决方法:修改kafka/config/server.properties中第34行的ip地址,这里的kafka-host需要在/etc/hosts进行映射,服务端映射到本地或内网ip,客户端映射到服务端ip原创 2020-05-13 23:44:11 · 3667 阅读 · 0 评论 -
flink常见报错及解决方案
Exception in thread "main" org.apache.flink.runtime.client.JobExecutionException: Job execution failed.Caused by: java.lang.Exception: java.net.SocketException: Connection resetCaused by: java.net.SocketException: Connection resetNo new data sinks have原创 2020-05-11 21:09:59 · 9364 阅读 · 2 评论 -
FAILED: RuntimeException org.apache.hadoop.hive.ql.security.authorization.plugin.HiveAuthzPluginExce
完整报错信息FAILED: RuntimeException org.apache.hadoop.hive.ql.security.authorization.plugin.HiveAuthzPluginException: SQL standards based authorization should not be enabled from hive cliInstead the use o...原创 2020-05-05 16:20:40 · 1153 阅读 · 0 评论 -
手把手教你实现kafka集群搭建
目录1.解压2.修改配置2.1将log目录修改为/kafaka-logs2.2修改zookeeper2.3编写启动脚本2.4修改node2和node3的service.properties3.启动4.测试选择搭建主机选择node1,node2,node3搭建集群1.解压[root@node1 apps]# tar -zxvf kafka_2.11-0.11.0.3.tgz -C /opt...原创 2020-04-15 17:36:51 · 291 阅读 · 0 评论 -
hadoop之组件
1.Hadoop Commonhadoop通用组件:包含了其他hadoop模块要用到的库文件和工具2.HDFS分布式文件系统(Hadoop Dsitributed File System)运行于通用硬件(一般来说对硬件要求不高,廉价的都行)上的分布式文件系统,高吞吐,高可靠3.YARN资源管理组件,于2013年引入的组件,用于管理集群中的计算资源并在这些资源上调度用户应用.4....原创 2020-04-04 20:47:49 · 282 阅读 · 0 评论 -
Hadoop1.x/Hadoop2.x/Hadoop3.x的区别
Hadoop1.x是一个namenode一个scondarynamenode,到了hadoop2.x版本取消了scondarynamenode,但是增加了一个namenode,有两个namenode一主一备原创 2020-04-04 20:46:58 · 1369 阅读 · 0 评论 -
hadoop之文件读写流程
写文件流程1.调用客户端的对象DistributedFileSystem的create方法2.DistributedFileSystem会发起对namenode的一个RPC连接,请求创建一个文件,不包含关于block块的请求.namenode会执行各种各样的检查,确保要创建的文件不存在,并且客户端有创建文件的权限.如果检查通过,namenode会创建一个文件(在edits log中,同时更新...原创 2020-04-04 19:03:37 · 900 阅读 · 0 评论 -
HDFS之组件
1.NameNode2.SecondaryNameNodefsimage和edits log合并过程图3.DataNode组件图:1.NameNode1.NameNode就像班主任,主要负责管理文件系统的命令空间,文件元数据存放在内存中2.fsimage镜像文件,edits log编辑日志:两种方式在Namenode中进行持久化2.SecondaryNameNode...原创 2020-04-04 18:37:35 · 1104 阅读 · 0 评论 -
bin/../conf/zoo.cfg Error contacting service. It is probably not running.
运行MR任务时,报错zk连接被拒绝检查zk集群都是启动状态,发现其中一台,出现如下错误[root@node4 bin]# zkServer.sh statusJMX enabled by defaultUsing config: /opt/zookeeper-3.4.6/bin/../conf/zoo.cfgError contacting service. It is probably...原创 2020-03-12 00:32:22 · 396 阅读 · 0 评论 -
手把手教你实现nginx反向代理服务器
1.反向代理代理服务器根据其代理对象的不同,可以分为正向代理服务器与反向代理服务器。这里的“正”与“反”均是站在客户端角度来说的。要明白反向代理,就得知道什么是正向代理.2.正向代理服务器正向代理是对客户端的代理。客户端 C 想要从服务端 S 获取资源,但由于某些原因不能,直接访问服务端,而是通过另外一台主机 P 向服务端发送请求。当服务端处理完毕请求后,将响应发送给主机 P,主机 P ...原创 2020-03-09 22:13:24 · 905 阅读 · 0 评论 -
一文读懂之nginx
1.nginx概述1.1nginx简介1.nginx(“engine x”)是一个高性能的静态HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP代理服务器.2.第一个公开版本0.1.0发布于2014年10月4日.3.其将源代码以类BSD许可证的形式发布,因他的稳定性,丰富的功能集、示例配置文件和低系统资源的消耗而闻名4、官方测试nginx能够支撑5万并发链接,并且cpu、内存...原创 2020-03-09 21:01:01 · 442 阅读 · 0 评论 -
Hive优化
Hive优化核心思想把HiveSQL当作MapReduce程序去优化注:以下SQL不会转化为MapReduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain显示执行计划-EXPLAIN[EXTENDED] query:extended会更加详细的展示查询过程1.Hive抓取策略hive对某些情况的查询不需要使用MapReduce计算抓取策略...原创 2020-03-04 22:49:49 · 142 阅读 · 0 评论 -
MapReduce之Google 网页排序算法PageRank
1.算法分析 pagerank PR值1.2算法实现1.2.1初始值1.2.2迭代计算(收敛)1.2.3算法修正2.数据计算3.Reduce输出该如何设计?3.1解题思路3.1.1MR原语不被破坏3.1.2map:3.1.3reduce:3.1.4开发步骤原创 2020-02-28 10:10:54 · 599 阅读 · 0 评论 -
手把手教你实现之keepalived
1.Keepalivedkeepalived(保持活着)是集群管理中保证集群高可用的服务软件.keepalived的作用是检测服务器的状态,如果有一台服务器宕机,或工作出现故障,keepalived将检测到,并将有故障的服务器从系统中剔除,同时使用其他服务器代替该服务器的工作,当服务器工作正常后keepalived自动将服务器加到服务器群中,这些工作全部自动完成,不需要人工干涉,需要人工做的只...原创 2020-02-28 09:10:06 · 165 阅读 · 0 评论 -
MapReduce案例之天气分析
需求找出每个月温度最高的两天数据集1949-10-01 14:21:02 34c1949-10-01 19:21:02 38c1949-10-02 14:01:02 36c1950-01-01 11:21:02 32c1950-10-01 12:21:02 37c1951-12-01 12:21:02 23c1950-10-02 12:21:02 41c1950-10-03 1...原创 2020-02-27 23:14:21 · 4094 阅读 · 0 评论 -
MapReduce案例之好友推荐
可能遇到的问题:Cannot create directory /mr/fof/input. Name node is in safe mode.解决方法:退出安全模式bin/hadoop dfsadmin -safemode leaveWARN util.NativeCodeLoader: Unable to load native-hadoop library for your pl...原创 2020-02-27 22:58:35 · 1313 阅读 · 2 评论 -
java客户端操作HDFS(IDEA,Eclipse插件)
windows上部署hadoop包部署包下载地址第一步:将hadoop.dll文件放到 c:/windows/system32第二步:配置环境变量添加HADOOP_HOME,HADOOP_USER_NAME=root将hadoopbin和sbin目录放到PATH中第三步:将hadoop-2.6.5.tar\hadoop-2.6.5\share\hadoop目录下中common,hdf...原创 2020-02-26 21:57:59 · 286 阅读 · 6 评论 -
MapReduce源码分析
mapreduce计算流程:首先将block块切片,每个切片对应一个任务.切片的目的是将block数量和map任务数量解耦.map读取切片数据,默认按行读取,作为键值对交给map方法,其中key是当前读取的行在文件中的字节偏移量,value就是读取的当前行.map开始计算,自定义的逻辑map将输出的kv首先写道环形缓冲区,在写之前计算分区号(默认按照key得hash值对reduce的个...原创 2020-02-26 20:51:16 · 187 阅读 · 0 评论 -
Hadoop之起源
发展历史1.2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。2.2003年10月,Google发表Google File System论文。3.2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。4.2004年10月,Google发表了MapReduce...原创 2020-02-21 21:55:59 · 1892 阅读 · 0 评论 -
Hadoop之3.0新特性
将默认的最低jdk从7升级到8纠删码可以将3倍副本占据的空间压缩到1.5倍,并保持3倍副本的容错。由于在读取数据的时候需要进行额外的计算,用于存储使用不频繁的数据通过扩展YARN的资源类型,支持CPU和内存之外的其他资源,如GPU、FPGA、软件许可证、本地存储等。重写了hadoop中的shell脚本,修复了很多长期存在的bug并添加了新特性。有一些改进兼容老版本,有一些不兼容。对map...原创 2020-02-21 23:10:04 · 213 阅读 · 0 评论 -
Zookeeper简介
ZooKeeper是用Java编写的,运行在Java环境上,因此,在部署zk的机器上需要安装Java运行环境。为了正常运行zk,我们需要JRE1.6或者以上的版本。对于集群模式下的ZooKeeper部署,3个ZooKeeper服务进程是建议的最小进程数量,而且不同的服务进程建议部署在不同的物理机器上面,以减少机器宕机带来的风险,以实现ZooKeeper集群的高可用。...原创 2020-02-22 11:31:18 · 306 阅读 · 0 评论