![](https://img-blog.csdnimg.cn/6463b43714c64b62a33da797870d4aa8.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
▼ BigData
文章平均质量分 62
大数据;
脸ル粉嘟嘟
BigDate.我命由我!
展开
-
设置linux静态ip
配置的是局域网网络号,这个是。就是网关或者路由地址;需要说明,原来还有个。ifcalc自动计算。原创 2023-06-17 01:05:20 · 172 阅读 · 0 评论 -
如何设置CDH的资源池
【代码】如何设置CDH的资源池。原创 2023-06-17 00:56:32 · 339 阅读 · 0 评论 -
离线计算调优手册
目前离线计算主要分为两块: 和 ,该手册将围绕这两部分展开说明。随着技术不断迭代升级,结合不同业务、不同场景,手册的适用性可能发生变化,因此下面介绍的优化手段可作为参考,并不是一成不变的。Hive的简单定义(来自Hive官网):简单来说,hive本身是一种数据仓库,通过其提供的sql和访问接口,使我们能够很方便的访问读写大规模数据集,无需关注底层数据是如何分布存储的。目前hive 提供了三种计算引擎:,使用者可根据hadoop集群安装环境(CDH、阿里云EMR等等)选择使用不同的计算引擎。具体可通过参数原创 2023-06-13 23:23:58 · 514 阅读 · 0 评论 -
Hive归档操作命令
直接使用大数据平台的离线计算创建作业即可;原创 2023-06-13 22:53:16 · 215 阅读 · 0 评论 -
dbeaver配置驱动手册
一、配置hive连接(impala同理)点击数据库,新建连接选择hadoop/bigdata,选择apache hive点击下一步,输入以下选项点击编辑驱动设置,找到驱动文件目录,添加文件夹,点击找到类,选择hivedriver选择确定,点击测试连接按钮即可原创 2023-06-07 10:02:06 · 4524 阅读 · 0 评论 -
合并文件解决HiveServer2内存溢出方案
使用HiveServer2查询数据时,会将元数据都加载到内存中,如果一个表格的分区很大,每个分区中又有很多的小文件,就会导致将元数据加载到内存中时使用的内存比较大。因此,Cloudera公司推荐使用的分区数最好不要超过1000个分区;同时分区中的也不要存储过多的为小文件,要定期对数据进行治理以合并小文件。原创 2023-06-06 16:23:02 · 1116 阅读 · 0 评论 -
基于Oracle系统表将Oracle表生成出相应的HIVE内部表&外部表
【代码】基于Oracle系统表将Oracle表生成出相应的HIVE内部表&外部表。原创 2023-06-06 15:53:33 · 360 阅读 · 0 评论 -
将固定分隔符的TXT文件导入Hive表
【代码】将固定分隔符的TXT文件导入Hive表。原创 2023-06-06 15:37:08 · 1016 阅读 · 2 评论 -
七夕来袭!还要做CDH数据迁移怎么办?来看看DistCp
该工具用于大规模集群内部和集群之间数据拷贝,它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。...............原创 2022-08-04 17:46:17 · 766 阅读 · 0 评论 -
关于Linux:There were ** failed login attempts since the last successful login
谢谢能够看到这里,希望对于新手会有用,我也是在测试阶段;后续监控一下暴力破解的是否减少。能够介绍不必要的损失。上面使用的都是测试用户,下面再写一个删除用户的命令。由于部署一些东西想要在线访问使用的是阿里云的服务器,但是每次使用root登录的时候,都会出现下图所示的信息,有尝试暴力登录我的主机。-使用root用户执行下面命令。重启sshd服务使其修改生效。...原创 2022-07-19 18:11:21 · 3282 阅读 · 0 评论 -
搭建CDH批量执行的脚本
0.前言在搭建cdh的过程中,需要执行大量相同的命令到不同的机器,因此编写批量脚本。0.1 注意点1. node.list内为所有节点IP2. 需要下载expect1.批量执行命令的脚本如下:1.1 batch_cmd.sh#!/bin/shlist_file=$1cmd=$2username=rootpassword=passwordcat $list_file | while read linedo host_ip=`echo $line | awk '{print $原创 2022-01-01 13:26:46 · 539 阅读 · 0 评论 -
MapReduce入门(三)倒排索引
什么是倒排索引? 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。我感觉搜索引擎的原理就是倒排索引,或者正排索引...原创 2018-10-13 15:50:04 · 449 阅读 · 0 评论 -
Mapreduce自定义数据类型
Hadoop自带的数据类型:Intwritable,LongWritable,Text,xxWritable. 某些情况下:使用自定义的数据类型方便一些(类似java中的pojo)。实现:实现writableComparable接口即可。场景例如:成绩表:由语文,数学,英文组成。上传到hdfs上score目录下一个score.txt文件--文件内容如下:想...原创 2018-10-15 12:38:45 · 520 阅读 · 0 评论 -
复合式MapReduce之ChainJob
依赖式的场景我们可以设想一下MapReduce有2个子任务job1,job2构成,job2要在job1完成之后才执行。job1:用上篇写的合并小文件job2:使用单词计数这种关系就叫复杂数据依赖关系的组合时mapreduce。hadoop为这种组合关系提供了一种执行和控制机制,hadoop通过job和jobControl类提供具体的编程方法。Job除了维护子任务的配置信息,...原创 2018-10-13 13:41:12 · 184 阅读 · 0 评论 -
MapReduce入门(二)合并小文件
hadoop为什么要合并小文件? 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则nameno...原创 2018-10-13 13:20:10 · 622 阅读 · 0 评论 -
MapReduce入门(一)单词计数
一、MR计算模型的由来 MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷,主要是为了解决其搜索引擎中大规模网页数据的并行化处理。 Google公司发明了MapReduce之后,首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很...原创 2018-10-09 20:00:44 · 2622 阅读 · 0 评论 -
hbase系列-Hbase热点问题、数据倾斜和rowkey的散列设计
1、分布式与并行处理 分布式系统通常,我们说分布式系统的时候,我们都会想到Dubbo框架和SpringCloud框架。这两个框架现在应该是国内用的比较多的两个分布式框架了,特点都是很容易把服务部署在多台机器组成一个高可用的服务集群来应对高并发。所以,我们通常认为分布式系统就是多台机器组成一个集群对外提供服务,每个请求也会被分配到集群中的一台或者多台机子上完成,而用户是感觉不同整个系统封装的细...转载 2018-12-10 22:18:40 · 193 阅读 · 0 评论 -
HBase利用observer(协处理器)创建二级索引
一、协处理器—Coprocessor (概念拷贝) 1、 起源Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(<0.92)Hbase 中,统计数据表的总行数,需要使用 Counter 方法,执行一次 MapReduce Job 才能得到。虽然 HBase 在数据存储层中集成了 MapRed......原创 2018-12-10 22:32:54 · 1541 阅读 · 2 评论 -
kettle入门之文本文件导入数据库
Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。...原创 2019-01-01 13:40:58 · 3888 阅读 · 1 评论 -
Apache Spark编程教程
Apache Spark JavaRDD和任务解决好吧,我告诉我身边的每个人,如果你不知道map-reduce概念那么你就无法理解Apache Spark。为了证明这一点,让我们解决简单的任务。假设我们在城镇中有以下温度的文本文件:Prague 35Madrid 40Berlin 20Paris 15Rome 25位于Apache Hadoop HDFS文件系统,我们需要编写...翻译 2019-01-14 20:15:13 · 348 阅读 · 0 评论 -
Flume结合场景讲解
flume 使用简单使用flume 场景1: 1、通过netcat发布消息 2、用flume接收netcat发布的消息,最终显示在终端 3、flume的channels是用内存存储的先定义flume-conf.properties.log 这样的文件#定义agent的配置 定义sources 定义channels 定义sinksa1.sources = r1a1.sink...转载 2019-01-28 16:02:28 · 182 阅读 · 0 评论 -
DataX环境部署以及测试案例
DATAX简介DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据......原创 2019-03-11 17:24:55 · 4881 阅读 · 2 评论 -
使用hive脚本一键动态分区、分区又分桶以及脚本步骤详细详解(亲测成功)
一、动态分区以及从linux本地文件映射到hive表中。partitioned.sql脚本中的创造数据:mkdir /mytempcd mytempvi stu_score.txt1,zhangshan,50,12,lisi,67,13,tom,49,24,jery,48,2hive脚本内容如下------partitioned.sqlset mapre...原创 2018-10-19 22:21:33 · 1005 阅读 · 0 评论 -
HBASE的存储缺陷以及预分区的解决办法
【问题】 HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与 EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据 当我们只是通过HBas...原创 2018-10-24 21:00:14 · 1097 阅读 · 0 评论 -
RDD(弹性分布式数据集)的分析
RDD:Resilient Distributed Dataset(弹性分布式数据集)弹性:数据集的可恢复型原因:在分布式环境下,运算节点很容易出问题,会造成数据的丢失,rdd可以在数据丢失的背景下恢复数据。数据恢复的技术:1.基本备份2.基于日志(hadoop namenode中的namespace在磁盘上对应的是fsimage+editslog,当namenode重启的时候...原创 2018-11-14 17:41:20 · 187 阅读 · 0 评论 -
SparkStreamingStateful
/* * @Title: SparkStreamingStatefulDemo * @ProjectName spark-scala * @Description: TODO * @author Mr.lu * @date 2018/11/19:10:25 *//** * 实时处理数据 有状态计算 需要还原点 */import org.apache.sp...原创 2018-11-22 09:54:13 · 163 阅读 · 2 评论 -
Hadoop机架感知
目的:增加性能原因:同机架io快。可以两个块部署统一机架的不同机器。前提:是集群搭建开启成功1.查看机架感知:hdfs dfsadmin -printTopology2. 增加机架感知(一下都是在master(NameNode)上操作)a.修改core-site.xml,将下面内容添加进去<property><name>topolog...原创 2018-10-08 13:16:52 · 996 阅读 · 1 评论 -
动态的添加和删除hadoop集群中的节点
一:添加节点步骤:1.新节点中添加账户,设置无密码登陆2.Name节点中设置到新节点的无密码登陆3.在Name节点slaves文件中添加新节点4.在所有节点/etc/hosts文件中增加新节点名5.cd /usr/local/hadoop hadoop-deamon.sh start datanode.均衡数据节点的数据 start-balamcer.sh1...原创 2018-10-08 20:54:22 · 1154 阅读 · 0 评论 -
Hadoopkms加密
一、目的:保证数据安全 二、简介: Hadoop Key Management Server(KMS)是一个基于HadoopKeyProvider API编写的密钥管理服务器。他提供了一个client和一个server组件,client和server之间基于HTTP协议使用REST API通信。Client是一个KeyProvider的实现,使用KMS HTTP REST API与K...原创 2018-10-08 21:17:19 · 1444 阅读 · 0 评论 -
Hadoop参数配置超详细解析
hadoop参数配置转载 2018-10-09 21:17:35 · 291 阅读 · 0 评论 -
使用Sqoop将MySQL与HDFS数据导入导出
一、拷贝mysql数据表到hdfs上1.确保mysql可以远程连接, 防火墙等已关闭或开端口, hadoop已启动, hdfs可访问(没有处于安全模式,如果处于点击这里)2.确保hdfs上不存在目标文件夹, sqoop会自动生成文件夹, 若已存在则报错,要么加上--delete-target-dir3.命令如下, 参数自行修改, mysql所在IP为192.168.203.7, 用户名密码...原创 2018-10-18 13:33:41 · 493 阅读 · 0 评论 -
Hbase 的javaAPI基本操作用 在idea上的实现
1.保证集群开启:jps有如下进程2.pom文件中的依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...原创 2018-10-23 22:00:08 · 1427 阅读 · 0 评论 -
Java通过Hadoop实现RPC通讯简单实例
准备pom文件中的maven依赖:jar包<!--ipc通信模块--><dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.5&原创 2018-10-30 20:52:15 · 400 阅读 · 0 评论 -
Linux的基本命令
目录切换命令 cd usr 切换到该目录下usr目录 cd ../ 切换到上一层目录 cd / 切换到系统根目录 cd ~ 切换到用户主目录 cd - 切换到上一个所在目录 目录的操作命令(增删改查) 增加目录操作(增...原创 2018-09-03 22:10:03 · 135 阅读 · 0 评论 -
Linux挂载磁盘(扩容)
磁盘相关介绍:fdisk -l 查看磁盘占用情况sda:代表一个磁盘s---SCSI d------磁盘 a:代表挂在在SCSI类型的硬盘的第一块Linux文件系统:都是用文件形式描述的SCSI:用于服务器中硬盘的存储SATA接口:用于PC磁盘读写原理:磁盘旋转,磁头位移,读取数据挂载步骤为了让新硬盘有用:分区---->格式化-...原创 2018-09-26 18:52:51 · 1145 阅读 · 0 评论 -
linux上创建RAID(磁盘阵列)与LVM(逻辑盘)
一、RAIDraid:磁盘阵列(多个磁盘可以并行读写)1.提高IO2.保证容错磁盘类型:b,cb-->bclock--块设备--经过缓冲区(一次输入的不是一个字符)c-->char--字符设备--:keyboard、mouse(一次输入的是一个字符)使用mdadm命令创建RAID(磁盘阵列)前提---1.虚拟机关机;创建3个新硬盘(将大小设置成1-2G,一切默认...原创 2018-09-27 13:05:58 · 933 阅读 · 0 评论 -
克隆之后一键修改IP、删除Mac地址、修改主机名(未测试成功只是思路)
设计思路克隆之后需要修改IP、删除Mac地址、修改主机名1.IP因为IP存在于/etc/sysconfig/network-scripts/ifcfg-eth0使用sed -i “linec”替换IP--line实际写具体数字如果存在HWADDR,将删除HWADDR2.删除Mac地址rm -rf /etc/udev/rules.d/70-persistent-net.rules...原创 2018-09-30 16:06:19 · 1200 阅读 · 0 评论 -
kafka&&sparkstreaming整合入门之Wordcount
Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个单独的对应Spark Streaming包可用。请为您的代理选择正确的包和所需的特性;请注意,0.8集成与后来的0.9和0.10代理兼容,但是0.10集成与前面的代理不兼容。一、代码/*** @author Mr.lu* @Title: KafkaStreamingWordCount* @Pro...原创 2018-12-04 19:00:22 · 162 阅读 · 0 评论 -
kafka幂等producer
众所周知,Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics,下称EOS)。Kafka的EOS主要体现在3个方面:幂等producer:保证发送单个分区的消息只会发送一次,不会出现重复消息 事务(transaction):保证原子性地写入到多个分区,即写入到多个分区的消息要么全部成功,要么全部回滚 流处理EOS:流处理本...原创 2018-11-20 21:10:20 · 607 阅读 · 0 评论 -
kafka使用说明书
首先要打开zookeeper,其次打开kafka,关闭时要先关闭kafka再关闭zookeeper启动zookeeperzookeeper-server-start.sh config/zookeeper.properties启动kafkakafka-server-start.sh config/server.properties停止kafkakafka-server-...原创 2018-11-29 21:29:50 · 433 阅读 · 0 评论