大数据
江陵之月
本人是一个具有文艺范的程序员,是大数据工程师,家在成都,到一线城市打拼过,现在回到家乡发展,希望在CSDN遇到志同道合的人
展开
-
小文件存储方案
小文件存储方案小文件存储方案方式:1)基于HDFS存储方案2)基于HBase存储方案3)基于打包构建索引方案4)其他方案注意:建议在上层作一个逻辑处理层,在存储时先判断是大文件还是小文件,再决定是否用打包压缩还是直接上传至HDFS,可借鉴TFS方案基于HDFS存储方案分类:1)HAR2)SequenceFile3)CombinedFile基于HBase存储方案原理:1)从2.0版本开始,HBase多了一个MOB的结构2)MOB是由StoreFile和MOB File共同组成3)对原创 2020-12-07 09:38:39 · 791 阅读 · 0 评论 -
数据迁移.Hive
Hive的数据迁移方式:1)使用Hive SQL进行数据的导入导出2)export/import方式使用Hive SQL进行数据的导入导出方式:1)将数据导出到本地INSERT OVERWRITE LOCAL DIRECTORY “路径” ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ SELECT 字段1, 字段2 ,… FROM 表名;2)将数据导出到HDFSINSERT OVERWRITE DIRECTORY “路径” ROW FORMAT D原创 2020-12-07 09:36:32 · 265 阅读 · 0 评论 -
数据迁移.HBase
HBase的数据迁移HBase的数据迁移分类:1)copyTable方式2)Export/Import方式3)Snapshot方式copyTable方式作用:以表级别进行数据迁移适用:1)表深度拷贝2)集群间拷贝3)增量拷贝4)部分表备份特点:效率较低原理:涉及对原表数据Scan,然后直接Put到目标表Export/Import方式阶段:1)Export阶段将原集群表数据Scan并转换成Sequence File到HDFS上2)Import阶段将原集群Export出的Seq原创 2020-12-07 09:33:39 · 59 阅读 · 0 评论 -
数据迁移.Hadoop
Hadoop的数据迁移分类:1)DistCp方式2.DistCp方式别称:DistCp、Distributed Copy、分布式拷贝作用:用于大规模集群内部和集群之间拷贝的工具特点:1)它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成2)它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝方式:1)hadoop distcp hdfs://src-hadoop-address:9000/table_name hdfs://dst-hadoop-a原创 2020-12-05 21:24:33 · 93 阅读 · 0 评论 -
数据迁移.ZooKeeper
ZooKeeper的数据迁移方式:1)原生命令行2)zkcopy原生命令行步骤:1)找到服务器上的ZooKeeper安装路径vi /usr/local/zookeeper-3.4.9/conf/zoo.cfgdatadir=/usr/local/zookeeper-3.4.9/data2)查看最新的log和快照数据cd /usr/local/zookeeper-3.4.9/data/version-2/3)把最新的两个文件拷贝到另外的ZooKeeper服务目录下sz log.f32bb原创 2020-12-05 21:23:19 · 320 阅读 · 0 评论 -
大数据测试的知识点
大数据测试分类:1)功能性测试2)非功能性测试功能性测试步骤:1)数据导入/预处理验证阶段2)MapReduce数据输出验证阶段3)验证大数据ETL到数据仓库4)验证分析报告数据导入/预处理验证方式:1)输入文件与源文件进行比对,保证数据的一致性2)根据数据需求来保证获取数据的准确性3)验证文件被正确的加载进HDFS,且被分割,复制到不同的数据节点中MapReduce数据输出验证阶段方式:1)验证梳理数据处理正常完成,输出文件正常得到2)在单个节点上验证大数据的业务逻辑,进而在多原创 2020-12-05 21:19:50 · 457 阅读 · 0 评论