大数据
文章平均质量分 82
首席撩妹指导官
大数据码农,欢迎小伙伴们一起研究探索。
展开
-
solr开发文档
由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:基于以述的几种方案的综合分析,对于我们公司的搜索引擎方案,采用solr来实现比较合适。Apache Solr 是一个开源的搜索服务器,Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。定制 Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述所有 Field 及其内容的 XML 文档就可以了。定制搜原创 2023-03-13 22:30:46 · 724 阅读 · 0 评论 -
Hadoop参数汇总
默认实现是 org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback, 若是JNI有效,它将发挥做用,使用Hadoop的API去获取user的groups列表。在有些场景下,特别是对一些大的,而且不可能重用的数据,缓存在操做系统的缓存区是无用的。可使用8进制数字也可使用符号,例如:"022" (8进制,等同于以符号表示的u=rwx,g=r-x,o=r-x),或者"u=rwx,g=rwx,o="(符号法,等同于8进制的007)。原创 2023-03-01 21:46:44 · 917 阅读 · 1 评论 -
离线分析HDFS的FsImage查找集群小文件
统计中有两个重要参数parent_id和instr(path,'/',1,2)这两个参数主要表示指定统计的HDFS目录以及目录钻取深度,instr()函数中的最后一个参数即为目录钻取深度(如果为parent_id=1为根目录“/”,钻取深度则为2,即根目录下所有的数据目录,需要钻取根深的目录则依次递增)。如下统计方式主要基于Hive库和表的统计分析,统计Hive中所有库存的数据文件数、Block数量、文件总大小(bytes)及平均文件大小(bytes)。2.使用hdfs oiv命令解析FsImage文件。原创 2023-03-01 20:21:41 · 419 阅读 · 0 评论 -
Hadoop调优思路
HDFS 上每个文件都要在 NameNode 上创建对应的元数据,这个元数据的大小约为 150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用 NameNode 的内存空间,另一方面就是元数据文件过多,使得寻址索引速度变慢。这里我们发现所有的文件块都是存储在 DISK,按照理论一个副本存储在 RAM_DISK,其他副本存储在 DISK 中,这是因为,我们还需要配置“dfs.datanode.max.locked.memory”,“dfs.block.size”参数。原创 2023-02-28 21:43:40 · 1152 阅读 · 0 评论 -
k8s功能
KubeSphere 是国内一家青云(QingCloud)公司在 Kubernetes 之上构建的面向云原生应用的容器混合云,支持多云与多集群管理,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。KubeSphere 旨在解决 Kubernetes 在构建、部署、管理和可观测性等方面的痛点,提供全面的服务和自动化的应用供应、伸缩和管理,让研发更专注于代码编写。云控制器管理器允许您链接集群到云提供商的应用编程接口中, 并把和该云平台交互的组件与只和您的集群交互的组件分离开。转载 2023-02-21 22:06:23 · 245 阅读 · 0 评论 -
docker CIG
cAdvisor 是一个运行中的守护进程用来收集、聚合、处理和导出运行容器相关的信息,每个容器保持独立的参数、历史资源使用情况和完整的资源使用数据。grafana是用于可视化大型测量数据的开源程序,他提供了强大和优雅的方式去创建、共享、浏览数据。grafana有热插拔控制面板和可扩展的数据源,目前已经支持Graphite、InfluxDB、OpenTSDB、Elasticsearch。grafana最常用于因特网基础设施和应用分析,但在其他领域也有机会用到,比如:工业传感器、家庭自动化、过程控制等等。转载 2023-02-21 21:58:36 · 126 阅读 · 0 评论 -
RocketMQ
DLedger是一套基于Raft协议的分布式日志存储组件,部署 RocketMQ 时可以根据需要选择使用DLeger来替换原生的副本存储机制。本文档主要介绍如何快速构建和部署基于 DLedger 的可以自动容灾切换的 RocketMQ 集群。对RocketMQ的Topic资源访问权限控制定义主要如下表所示,分为以下四种权限含义DENY拒绝ANYPUB 或者 SUB 权限PUB发送权限SUB订阅权限字段取值含义全局IP白名单accessKey字符串Access Key。转载 2023-02-20 22:05:04 · 686 阅读 · 0 评论 -
RabbitMQ联邦交换机、队列
正在上传…重新上传取消。原创 2023-02-19 16:08:03 · 195 阅读 · 0 评论 -
Zookeeper分布式锁实现Curator
当需要加读锁的时候,会去判断自己创建节点的前面有没有写锁,如果没写锁,那么说明前面加的都是读锁,那么读锁就能加锁成功,读读不互斥,如果前面有写锁,那么就加锁失败(自己加的写锁除外),读写互斥。前面说过,判断有没有加锁成功,会返回一个PredicateResults,这里面包含了有没有加锁成功的信息,同时如果没有加锁成功,就会返回需要监听的节点,也就是当前创建的节点的前一个节点。此时如果第二次来加锁,那么就会从threadData中获取到加锁的信息,然后将加锁次数加1,就代表了加锁成功,然后直接返回。原创 2023-02-18 17:56:16 · 169 阅读 · 0 评论 -
Redisson分布式锁
Redisson整体实现分布式加解锁流程的实现稍显复杂,作者Rui Gu对Netty和JUC、Redis研究深入,利用了很多高级特性和语义,值得深入学习,本次介绍也只是单机Redis下锁实现。Redisson也提供了多机情况下的联锁MultiLock:支持Redis多种连接模式 1、集群模式 2、单例模式 3、哨兵模式 4、主从模式3、分布式相关工具1、支持使用的分布式对象。原创 2023-02-18 17:48:01 · 184 阅读 · 0 评论 -
Hive调优大全
创建表时,特别是宽表,尽量使用 ORC、ParquetFile 这些列式存储格式,因为列式存储的表,每一列的数据在物理上是存储在一起的,Hive查询时会只遍历需要列数据,大大减少处理的数据量。在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其他所有任务已经运行完毕),则这些任务会拖慢作业的整体执行进度。但是不推荐使用这个语法。原创 2023-02-13 22:39:19 · 807 阅读 · 0 评论 -
Hive explain执行计划详解
这个执行计划对于咱们了解底层原理,hive 调优,排查数据倾斜等颇有帮助 express使用语法以下:apacheexplain 后面能够跟如下可选参数,注意:这几个可选参数不是 hive 每一个版本都支持的函数在 hive cli 中输入如下命令(hive 2.3.7):oop获得结果(请逐行看完,即便看不懂也要每行都看):性能Map ReduceTableScanmode: hashtable:limit: -1ListSink。原创 2023-02-14 22:59:47 · 269 阅读 · 0 评论 -
keepalived使用
本脚本实时监控inceptor gateway和keepalived服务状态,通过判断gateway状态停止启动keepalived服务,实现vip的切换,实现gateway高可用(只有停掉master的keepalived服务vip才会切换到BACKUP节点)。keepalived.sh实现vip切换,如果gateway服务down掉,就停止keepalived服务,vip会切换到BACKUP,如果gateway服务恢复,就启动keepalived服务,vip切回MASTER。停掉gateway1。原创 2023-02-04 16:38:08 · 699 阅读 · 0 评论 -
不同集群用户赋权
/test_0329用户可将增删改查权限赋予其他用户(也可指定某个权限)//test_0329用户可将create权限赋予其他用户。//赋予test_0329用户对test库的创建、增删改查权限;//收回test_0329用户对test库的所有权限;//赋予test_0329用户建库间表权限;原创 2023-02-04 09:33:10 · 498 阅读 · 0 评论 -
不使用脚本的SQL Bulkload (hyperdrive)
目标 Hyperdrive 表需要预分 Region,我们通过采样来生成 Split Key 表。在 Inceptor 中建外表指向 HDFS 上的数据集。最后使用 bulkload 导入数据。将数据集上传至HDFS。原创 2023-02-02 20:13:15 · 205 阅读 · 0 评论 -
docker 磁盘满了问题排查
进入 /var/lib/docker 目录,使用 du -sh 等查询磁盘空间大小的命令,一层层向下找,找到占用空间最大的一个目录,根据 docker inspect 命令和容器 layyer 名称,反推得到 container-id,确定了具体容器,然后重启容器释放磁盘空间或查看具体原因具体操作。b. 生产环境,建议进入到容器里面,确认下具体占用磁盘空间的目录,看是否是预期的,然后具体问题具体处理。例如:下图中的 257c6df 结尾的 container-id 就是我们要找的容器。原创 2023-02-01 11:56:18 · 1175 阅读 · 0 评论 -
两个namenode都是standby解决方法
问题分析:查看namenode日志发现没有active的namenode,都是standby状态,需要重新格式化zkfc,让他重新选举。pod里面执行hdfs zkfc -formatZK,退出pod,刷新页面。问题描述:两个namenode都是standby,不能变成active。原创 2023-02-01 11:53:28 · 361 阅读 · 0 评论 -
IKAnalyzer 中文分词器
量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 || 的 | 里氏 | 6.2 | 级 | 地震 | 已经 | 造成 | 至少 | 5427 | 人 | 死亡 | 20000 | 余人 |ikanalyzer | 是 | 一个 | 开源 | 的 | 基亍 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中。参数 2 : boolean useSmart , 是否采用智能切分策略。原创 2023-02-01 11:47:50 · 1618 阅读 · 0 评论 -
solrcloud 高可用集群搭建
分别进入node12、node13、node14机器,通过vim tomcat8/bin/catalina.sh 打开catalina.sh文件,将tomcat启动项的 -Dbootstrap_confdir=/home/anu/tomcat8/solr_home/ustcinfo/conf 删掉,最终JAVA_OPTS参数如下。首先,我们在单机中已经将./solr-5.5.4/server/solr 下面所有的东西都拷贝到./tomcat8/solr_home目录下。原创 2023-02-01 11:40:19 · 434 阅读 · 0 评论 -
RabbitMQ三种Exchange
符号“#”匹配一个或多个词,符号“*”匹配不多不少一个词。因此“audit.#”能够匹配到“audit.irs.corporate”,但是“audit.*” 只会匹配到“audit.irs”。需要将一个队列绑定到交换机上,要求该消息与一个特定的路由键完全匹配。这是一个完整的匹配。如果一个队列绑定到该交换机上要求路由键 “dog”,则只有被标记为“dog”的消息才被转发,不会转发dog.puppy,也不会转发dog.guard,只会转发dog。一个发送到交换机的消息都会被转发到与该交换机绑定的所有队列上。原创 2023-02-01 11:30:54 · 135 阅读 · 0 评论 -
RabbitMQ安装
上传rabbitmq-server-3.4.1-1.noarch.rpm文件到/usr/local/src/rabbitmq/可登陆管理控制台,同时可以查看rabbitmq节点的相关信息(进程数,内存使用情况,磁盘使用情况等)可登陆管理控制台, 同时可以对policy进行管理。下载地址:http://www.rabbitmq.com/download.html。可登陆管理控制台,可查看所有的信息,并且可以对用户,策略(policy)进行操作。仅可登陆管理控制台,无法看到节点信息,也无法对策略进行管理。原创 2023-02-01 11:28:11 · 83 阅读 · 0 评论 -
【无标题】hyperdrive表根据rowkey预分region
类型的值可以指定前缀, 后缀可以省略。类型值中的每个字段顺序都是需要和表中。需要使⽤双引号,在值中的。原创 2023-02-01 11:18:37 · 288 阅读 · 0 评论 -
MYSQL 高可用
将Inceptor服务停止,修改/etc/inceptorsql1/conf/hive-site.xml l配置文件,将MySQL连接像3.3.3.4节一样,将原主MySQL的节点主机名改为备用节点MySQL的主机名。计划将数仓数湖的mysql迁移导zk节点中端服务器,并利用一块共享磁盘阵列存储mysql数据,多个mysql节点,实现mysql高可用性。计划将数仓数湖的MySQL迁移导zk节点中端服务器,并利用一块共享磁盘阵列存储MySQL数据,多个MySQL节点,实现MySQL高可用性。原创 2023-02-01 11:10:19 · 865 阅读 · 0 评论 -
集群间配置kerberos互信
本文档讲述通过配置tdh集群和tos集群某个租户两者间guardian互信,用户可以在两个集群登录操作hdfs,运用distcp工具将tdh集群中hdfs文件导入到tos租户hdfs。执行 hadoop fs -fs hdfs://192.168.100.104:8020 -ls / 和 hdfs dfs -ls / 是否都没问题。1.测试集群:以开发集群hdfs用户登录,然后分别访问开发集群和本地的hdfs。2.开发集群:以测试集群hd户登录,然后分别访问测试集群和本地的hdfs。原创 2023-02-01 10:56:33 · 2166 阅读 · 0 评论 -
UDF部署操作手册
当存在多个Inceptor server共用一个metastore时,在一个server下创建UDF,需要将其他Inceptor server重启才能查看、使用UDF。如果Inceptor不在local mode,那么资源的地址也必须是非本地URI,比如HDFS地址。本文档说明了在TDH集群部署UDF的规范化操作流程,方便大家在日后的实施工作中提高效率。重建工程,将相关包和代码复制,重新打jar包,注意JDK版本要和TDH集群匹配。如果需要更新临时UDF,需要重启Inceptor重新创建该临时UDF。原创 2023-02-01 10:38:50 · 411 阅读 · 0 评论 -
ORC transaction表与Compact原理及常见故障诊断
如果compact所在进程中这三种thread都处于正常状态,对于基于mapreduce的compact,还要检查yarn上compact任务是否正常,之前碰到的情 况是yarn分配给inceptor的资源太多,导致compact任务一直无法完成,碰到这种情况需要调整yarn的资源分配来确保有足够的资源进行compact。时,compact threads内嵌在server中,compact任务是一个spark任务,我们可以在spark的4040页面上看到(compact任务的sql类似于compact。原创 2023-02-02 07:56:49 · 932 阅读 · 1 评论 -
hive msck repair
msck repair table tablename修复表分区,常用于手动复制目录到hive表的location下,此时Hive元数据中没有记录到该目录是hive的分区,所以查不到该分区数据。表test_tbl,存储路径为/user/hive/warehouse/test_tbl,分区字段为pt,正常添加分区是这样的:alter table add if not exist partition (pt='20190101');然后在hdfs中表的存储目录下会生成分区目录/user/hive原创 2020-10-06 16:40:26 · 705 阅读 · 1 评论 -
Hive/HiveQL常用优化方法全面总结
目录列裁剪和分区裁剪 谓词下推 sort by代替order by group by代替distinct group by配置调整 map端预聚合 倾斜均衡配置项 join基础优化 build table(小表)前置 多表join时key相同 利用map join特性 分桶表map join 倾斜均衡配置项 优化SQL处理join数据倾斜 空值或无意义值 单独处理倾斜key 不同数据类型 build table过大 MapReduce优化原创 2020-09-27 15:00:52 · 842 阅读 · 1 评论 -
Hive配置汇总(一)
主要功能 hive配置参数 作用 默认值 应用场景 并发 hive.exec.parallel=true; 多job并发 hive.exec.parallel.thread.numbe=X; 可以并行化的job数 8 输入合并小文件 hive.input.format=org.apache.h...原创 2019-12-18 14:55:38 · 470 阅读 · 0 评论 -
使用Hadoop ACL 控制访问权限
一、HDFS访问控制hdfs-site.xml设置启动acl<property><name>dfs.permissions.enabled</name><value>true</value></property><property><name>dfs.namenode.acls.en...原创 2019-12-03 11:21:46 · 530 阅读 · 0 评论 -
hive on spark执行insert overwrite非常慢
把一些sql执行从hive改到spark,发现执行更慢,sql主要是一些insert overwrite操作,从执行计划看到,用到InsertIntoHiveTablespark-sql> explain insert overwrite table test2 select * from test1;== Physical Plan ==InsertIntoHiveTable M...原创 2019-12-03 11:19:44 · 5395 阅读 · 0 评论 -
HDFS原理分析
DFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念1、存储超大文件这里的“超大文件”是指几百MB、GB甚至TB级别的文件。2、最高效的访问模式是 一次写入、多次读取(流式数据访问)HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析原创 2017-09-29 11:32:11 · 277 阅读 · 0 评论 -
HDFS命令行文件操作
Hadoop文件操作命令形式为hadoop fs -cmd 说明:cmd是具体的文件操作命令,是一组数目可变的参数。Hadoop最常用的文件操作命令,包括添加文件和目录、获取文件、删除文件等。1 添加文件和目录HDFS有一个默认工作目录/usr/$USER,其中$USER是你的登录用户名,作者的用户名是root。该目录不能自动创建,需要执行mkdir命令创建原创 2017-09-29 11:33:07 · 731 阅读 · 0 评论 -
hadoop 常用命令
hadoop Apache版本的启动命令start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTr原创 2017-09-29 11:33:52 · 521 阅读 · 0 评论 -
MapReduce中job参数及设置map和reduce的个数
map的个数在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。影响map个数,即split个数的因素主要有:1)HDFS块的大小,即HDFS中dfs.block.size的值。如果有一个输入文件为1024m,当块为256m时,会被划分为4个split;当块为128m时,会被划分为8个split。2原创 2017-09-29 11:46:04 · 5492 阅读 · 0 评论 -
Hadoop2.x伪分布式环境搭建
1、对于Linux系统的目录进行规划2、上传所需要的安装包3、解压JDK配置环境变量 $ tar -zxfjdk-7u67-linux-x64.tar.gz -C /opt/modules/sudo vi /etc/profile 环境变量配置文件(系统文件)让文件生效:su - rootsource /etc/profile 验证:$ java -versio原创 2017-10-13 14:16:33 · 400 阅读 · 0 评论 -
Hadoop的datanode新建异常处理
Hadoop新部署一个节点。部署完毕后,启动datanode,没起来,错误如下:STARTUP_MSG: Starting DataNodeSTARTUP_MSG: host = node-128-99/192.168.1.99STARTUP_MSG: args = []STARTUP_MSG: version = 1.1.2STARTUP_MSG: build =原创 2017-10-19 13:16:22 · 278 阅读 · 0 评论 -
Ubuntu下Hadoop环境的配置
1:jdk的配置。详情请看jdk的配置 http://www.linuxidc.com/Linux/2012-11/74190.htm2:hadoop的安装 下载地址 http://labs.xiaonei.com/apache-mirror/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz 1、安装java和ssh原创 2017-10-19 13:18:33 · 583 阅读 · 0 评论 -
Hadoop 常见问题总结
出现问题以后先查看日志,以下是常见的错误情况1 地址占用org.apache.hadoop.hdfs.server.namenode.NameNode: Address already in use查找被占用的端口号对应的PID : netstat -tunlpkill -9 PID实在不行就killall -9 java2原创 2017-10-19 13:22:54 · 489 阅读 · 0 评论 -
hadoop安全模式
hadoop安全模式在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结 束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性,同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入 安全模式。在实践过程中,系统启动的时候去修改和删除文件也会有安全模式不允许修改的原创 2017-10-19 13:26:25 · 297 阅读 · 0 评论