14. 大数据
文章平均质量分 73
在风中的意志
这个作者很懒,什么都没留下…
展开
-
[MongoDB] MongoDB常用命令总结
前言用了MongoDB也有一段时间了. 在此记录下, 在使用MongoDB过程中比较难懂的一些命令&语句.常用命令 - 基础操作idMongoDB内的id比较特殊. 其是一个Object对象, 其生成原理见. 其在进行搜索时, 应写成如下表达式进行搜索.id - OtherTips把id的值赋值给其中的某个字段.增加一条记录删除一条记录查询一条记录更改一条记录删除一条记录内的某个字段常用命令 & 其余常见算子distinct()$in原创 2021-12-12 23:46:00 · 380 阅读 · 0 评论 -
[MongoDB] MongoDB如何备份远端数据库且记录一次问题解决过程
前言最近堆的需要整理的东西有点多. 慢慢把这些东西全部整理出来.之前有使用mongoimport和mongoexport导入导出单表的操作. 本次主要介绍的是mongodump和mongostore.基本操作命令导出./mongodump.exe -h 127.0.0.1 -p 27017 -u username -p password --authenticationDataBase SeanDataBase --db SeanDataBase -o C:\\mongodb\\dump\\原创 2021-07-06 02:19:11 · 757 阅读 · 0 评论 -
[MongoDB] 如何只查询对象的某几个字断
Question今天在开发的时候. 发现对象里面有时候有某些字断比较大. 导致查询和传输比较慢. 在此记录一下研究和探讨的过程.对象如下{ fieldA:"100", fieldB:"xx", fieldC:"xxxxxxxxxxxxxxxx"<假设有1w个字符>}那么在有些的查询场景下面. fieldC其实是不需要查询和返回的. 比如类似select fieldA, fieldB from table. 那么在mongoDB内应该如何解决呢?SolutionA -原创 2021-06-08 02:20:47 · 1764 阅读 · 0 评论 -
[MongoDB] MongoDB内数据迁移
前言主导了MongoDB的整体迁移工作. 将操作记录和细节记录在此处.基本命令本次主要有2个基础命令bin/mongoimport和 bin/mongoexport.mongoimportlocalhost:bin sean$ ./mongoexport --helpUsage: mongoexport <options>Export data from MongoDB in CSV or JSON format.See http://docs.mongodb.or原创 2021-04-19 00:52:07 · 1509 阅读 · 1 评论 -
[MongoDB] 运维相关操作记录
前言前段时间. 实战操作了下MongoDB. 在此将操作记录总结一下.MongoDB 相关Binlocalhost:bin sean$ pwd/Users/sean/Software/MongoDB/current/binlocalhost:bin sean$ lsUntitled.js mongo mongodump mongofiles mongooplog mongoreplay mongos mongotopbsondump mongod mongoexport mongoim原创 2021-04-12 01:19:52 · 224 阅读 · 0 评论 -
(Spark 异常) Failed to get broadcast_0_piece0 of broadcast_0
问题之前开发的时候遇到. Failed to get broadcast_0_piece0 of broadcast_0异常.20/07/03 15:58:50 ERROR Utils: Exception encounteredorg.apache.spark.SparkException: Failed to get broadcast_0_piece0 of broadcast_0 at org.apache.spark.broadcast.TorrentBroadcast$$anonfun$原创 2020-07-04 21:52:12 · 2863 阅读 · 0 评论 -
Spark 去掉前几行 & 去掉表头
前言在运行例子的时候. 遇到需要去除表头的情况. 将一般的几种做法记录于此.文件班级ID 姓名 年龄 性别 科目 成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7013原创 2020-07-04 21:43:44 · 7342 阅读 · 0 评论 -
Spark RDD QuickStart
前言本章主要介绍Spark RDD的QuickStart. 并且记录相关的操作过程与错误.Spark 集群与本地集群本地集群 配置spark-en.sh和slaves文件设置相关配置即可. 主要都在conf文件夹内. 其余相关操作见本系列的前几节.slaves文件#slaves文件# A Spark Worker will be started on each of the machines listed below.localhost#192.168.31.80spark-en原创 2020-07-03 12:04:44 · 304 阅读 · 0 评论 -
Hadoop MR 之(四) InputFormat 类 / OutputFormat类
前言在前一章内, 我们讲述了如何自定义Combiner/ Partition /GroupingComaprator类.本章我们讲解下如何自定义输入与输出. 也就是InputFormat类与OutPutFormat类.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我...原创 2019-04-06 13:03:12 · 537 阅读 · 0 评论 -
Hadoop MR 之(三) Combiner类 / Partitioner 类 / GroupingComparator 类
前言在前一章中, 我们介绍了如何使用MR框架完成自己的业务逻辑. 并且,实现了排序功能. 本章, 我们继续讲解Hadoop MR的自定义处理细节.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我一个Star.)基础知识在讲解Hadoop MR的Combainor...原创 2019-04-06 12:54:50 · 425 阅读 · 0 评论 -
Hadoop MR 之(五) 小文件的处理
前言在前章内我们讲述了如何自定义InputFormat. 本章, 我们接着这个话题讲述如何处理小型文件.处理策略处理策略1 自定义FileInputFormat. 相关的代码见上章(Hadoop MR 之(四) InputFormat 类 / OutputFormat类).处理策略2 使用Hadoop自带的CombineTextInputFormat. 相关的编码操作如下. // ...原创 2019-04-06 13:09:10 · 391 阅读 · 0 评论 -
HBase Shell 基本使用
前言在上章, 我们尝试在本地安装了HBase. 本章, 我们主要了解下HBase Shell的基本使用.基础知识HBase是什么在使用HBase之前, 我们先了解下HBase的几项基本知识.与MySQL不同, HBase是面向列的数据库. 通常会将某些列存储在不同的文件内. 比如<id,name,age,sex>有时会被拆分成<id,name>``<id...原创 2019-04-10 16:17:11 · 19231 阅读 · 2 评论 -
Hadoop MR 之(二) 传递自定义数据类型 & 排序
前言前章, 我们介绍了简单的WordCount代码的基本实现(Hadoop MR 之(一) 编写自己的WordCount). 本章, 我们将介绍, 如何在Map/Reduce操作内传递自己的数据类型, 并根据部分关键值对进行排序操作.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不...原创 2019-04-06 02:22:22 · 548 阅读 · 0 评论 -
Hadoop MR 之(一) 编写自己的WordCount
前言在前面的内容几章内, 我们主要介绍了HDFS的相关内容. 本章开始, 我们讲解下经常使用的Hadoop MapReduce的相关内容.有人会觉得, 当前已经到了Spark几乎一统天下的时代, 学习Map/Reduce似乎没什么必要. 但是, 我觉得还是有点必要的. 主要原因有三:Hadoop的Map/Reduce框架应当堪称分布式离线计算的先河, 后面的开源项目多多少少对其有点借鉴;...原创 2019-04-06 01:23:15 · 1396 阅读 · 0 评论 -
HBase 安装与配置
前言作为谷歌三剑客中BigTable的开源实现, HBase也是大数据领域必不可少的一环. 本章主要讲解如何安装HBase.前置条件JDKHadoopZooKeepr(可以选择HBase自带)安装流程Mac上可以选择使用homebrew进行安装, 也可以选择手动安装. 为了了解其中的配置流程, 我选择手动安装. 当然, 如果你觉得手动安装过于繁琐, 你可以参考Mac安装HBa...原创 2019-04-10 14:46:18 · 1212 阅读 · 0 评论 -
Hive 的安装与配置
前言在前面的章节内, 我们主要介绍了Hadoop体系内的相关知识. 本章中, 我们介绍下Hive的安装与使用.什么是Hive?个人认为, Hive是用来简化Hadoop的Map/Reduce操作的工具架构. 方便统计与搜查Hadoop表形式文件. 后继者Spark SQL与其特别的相似.安装Hive的安装主要包括如下几步:下载安装包到本地, 解压. http://mirror....原创 2019-04-04 17:31:44 · 777 阅读 · 0 评论 -
ZooKeeper 使用场景之 负载均衡
前言上章,我们简单了解了下ZooKeeper内的成员变量及调度服务.本章主要讲解下ZooKeeper的负载均衡.正文假设我们有3台服务器用于负载.那么有一台Client,其该怎么链接哪台机器呢?当其链接的主机宕机后该链接哪台服务器呢?我们可以使用Nginx或KeepAlive或者心跳机制.而使用今天的主角ZooKeeper,其也可以实现.原始架构:新架构:服务器结点: 可以在Z...原创 2019-03-23 22:46:45 · 702 阅读 · 0 评论 -
ZooKeeper 基本架构 与常见运用
前言在前面的章节ZooKeeper 基本操作 与 Java APIs我们介绍了.ZooKeeper的基本使用.本章中,我们将讲解下ZooKeeper的基本架构与常见的运用.基本架构使用场景基本架构在讲述基本架构之前, 我们先问一个问题: 什么是ZooKeeper?ZooKeeper是一个分布式的协调服务.用官方的话是ZooKeeper is a centralized serv...原创 2019-03-23 22:29:19 · 301 阅读 · 0 评论 -
ZooKeeper 基本操作 与 Java APIs
前言在前章ZooKeeper安装(集群化)我们安装ZooKeeper集群. 本章, 我们讲解下ZooKeeper的基本操作.命令行操作我们通常使用zkCli.sh脚本进行登陆.登陆命令:./zkCli.sh --server 192.168.31.60:2181其后,基本操作主要有如下几种:help命令显示客户所支持的所有命令,如:[zk: 192.168.31.60:2181...原创 2019-03-23 21:58:47 · 517 阅读 · 0 评论 -
Hadoop Shell 命令 与 WordCount
前言在前2章内, 我们分别介绍了Hadoop安装的3种形式(Standalone mode/ Pseudo-Distributed mode/Cluster mode). 本章, 我们介绍如何使用HDFS命令进行一些基本的操作. 官方的操作文档可以查看Hadoop Shell命令.正文前置条件已经安装Hadoop集群, 并启动. 从页面可以看到, 我们HDFS系统的文件目录.基本操作...原创 2019-03-30 17:34:51 · 637 阅读 · 0 评论 -
Spark Shell 的使用
前言前一章中我们介绍了Spark的Standalone模式的安装. 本章我们介绍下Spark Shell操作窗口的基本的安装.基本启动与使用基本启动与使用本地启动进入./bin目录, 使用spark-shell即可启动.localhost:bin Sean$ spark-shellPicked up JAVA_TOOL_OPTIONS: -Dfile.encoding=UT...原创 2019-03-30 15:32:56 · 16303 阅读 · 0 评论 -
Hadoop HDFS 基本原理(文件上传 & 文件下载 & NameNode & Secondary NameNode)
前言在前面的几章内,我们介绍了Hadoop Shell 命令 与 WordCount与Hadoop HDFS的Java API使用. 本章我们稍微讲解下Hadoop的客户端提交、Hadoop服务端 、Secondary namenode原理.概述HDFS集群分为2大角色: NameNode 与 DataNode/Secondary NameNode.NameNode负责整个文件系统的原...原创 2019-04-03 23:09:19 · 992 阅读 · 5 评论 -
ZooKeeper安装(集群化)
前言重新安装了下ZooKeeper,仍然遇到了一些问题.将操作流程记录如下.基本操作前提条件: JDK.基本机器:192.168.31.60192.168.31.61192.168.31.62对于ZooKeeper而言, Master与Follower结点是通过选举选举出来的.所以集群的各个结点的配置基本一致.(除了myid文件)通过集群脚本,创建安装目录. 分发安装...原创 2019-03-23 12:40:48 · 446 阅读 · 0 评论 -
Spark 安装 Standalone模式 (单机与集群)
前言今天我们了解下Spark的安装. Spark的安装模式有很多模式, 主要包括Spark Standalone、Running Spark on YARN、Running Spark on Kubernetes、Running Spark on Mesos. 其中YARN/Mesos/Kubernetes都是资源的调度器. 本章我们将简单的介绍下Spark Standalone在单机与集群模...原创 2019-03-29 17:09:04 · 2542 阅读 · 0 评论 -
Hadoop MR 之(六) Join操作 (MapJoin & ReduceJon & 缓存)
前言在前面的几章内, 我们主要讲解了如何进行简单的MR操作, 以及如何开发自定义组件.(Combiner/InputFormat等).在本章中, 我们主要讲解MR中的一个非常经典的问题: 如何实现Join操作?本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我一个St...原创 2019-04-06 18:28:50 · 604 阅读 · 1 评论 -
Hadoop MR 之(七) 其他基本操作
前言在前面的几章内, 我们讲解了如何进行简单的WordCount操作、如何自定义业务类型、如何Join操作等. 本章, 作为这个系列的补充章节, 稍微将下之前未被介绍的内容: 计数器和程序运行组.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我一个Star.)正文...原创 2019-04-06 18:37:45 · 297 阅读 · 0 评论 -
Hadoop MR 基本运维参数
前言在前面的章节内, 我们主要讲解了Hadoop MR的相关知识. 本章, 主要讲解Hadoop中主要的参数. 通常的程序的性能调优都和这些参数无不关系.本文相关代码, 可在我的Github项目 https://github.com/SeanYanxml/bigdata/ 目录下可以找到. PS: (如果觉得项目不错, 可以给我一个Star.)相关参数本地MR参数mapreduce....原创 2019-04-06 18:44:54 · 971 阅读 · 0 评论 -
Spark 基本算子
前言在前面的几章内, 我们分别介绍了Spark的安装与Spark Shell的基本操作. 本章, 我们注重介绍下Spark的基本算子.Spark的相关权威的介绍建议查看 http://spark.apache.org/docs/latest .本文对于其进行部分个人理解上的加工.基础知识RDDResilient Distributed Dataset (RDD), 弹性分布式数据集的...原创 2019-05-28 19:24:56 · 535 阅读 · 0 评论 -
MongoDB 基础概念与操作解析
前言在前一章内MongoDB 安装(Mac), 我们介绍了基本的MongdoDB的安装. 本章我们继续接着上章的内容继续.最近眼疾较为严重, 所以许久没更新了. 各位, 在工作和生活的时候多进行运动, 多保护自己的身体. 不要被剥削和洗脑的太过严重!基本概念我们都知道, 在Mysql内,我们经常将操作语言分为DML和DDL. 前者为表的相关操作&权限的相关操作等. 后者, 主要基...原创 2019-05-22 21:43:18 · 413 阅读 · 0 评论 -
MongoDB 安装(Mac)
前言MongoDB安装GUI工具下载MongoDB安装包localhost:MongoDB Sean$ sudo curl -O https://fastdl.mongodb.org/osx/mongodb-osx-x86_64-3.4.2.tgzPassword: % Total % Received % Xferd Average Speed Time ...原创 2019-05-12 21:54:36 · 1523 阅读 · 0 评论 -
Kafka 开发相关问题
前言本章记录下Kafka在使用过程中的相关问题.数据量: 5000-2W条/分钟.相关问题数据丢失&数据重发发送数据端, 在压力过大的时候, 又可能出现数据丢失的情况. 这时可以启动Kafka的重发机制. 极端情况, 可以将判断值调成99999, 这样Kafka一旦出现消息发送错误, 就会无限制的重复发送.此外, 还可以通过记录日志的情况. 将数据发送失败的数据通过异常记...原创 2019-05-03 22:01:52 · 357 阅读 · 0 评论 -
Hadoop HDFS的Java API使用
前言在前面的章节中Hadoop Shell 命令 与 WordCount. 我们介绍了经常使用的HDFS经常使用的Shell命令. 本章我们讲解下 Hadoop的HDFS Java API.正文Reference[1].原创 2019-04-03 17:16:39 · 2874 阅读 · 0 评论 -
Hive 基本命令
前言总结的Hive相关命令. 网上的排版略差, 重新排版记录于此.DML建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type[COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_nam...转载 2019-04-09 01:19:23 · 490 阅读 · 0 评论 -
Hadoop 总章
前言Hadoop作为离线计算和分布式存储的基础, 至关重要. 虽然, 至如今, 分布式计算正在向Spark上进行迁移, 但是Hadoop中的分布式存储HDFS及离线计算仍然值得学习.相关章节部署&安装Hadoop 安装(单结点)Hadoop安装(YARN 集群)HDFSHadoop Shell 命令 与 WordCountHadoop HDFS的Java API使用Ha...原创 2019-04-09 00:38:42 · 235 阅读 · 0 评论 -
Hive 相关问题
前言本章主要收集一些Hive经常会遇到的问题. 由于本人没有在生产环境内使用过Hive. 所以, 本节的内容多为转载.相关问题数据倾斜问题?Hive的HQL语句及数据倾斜解决方案hive数据倾斜优化策略Hive数据倾斜解决方法总结大数据常见问题之数据倾斜Hive多表Join操作hive进行多表join如何处理hive的6种join操作轻松玩转hive中各种join之...原创 2019-04-09 00:10:00 · 274 阅读 · 0 评论 -
Hive 基本操作命令
前言前面两章, 我们介绍了如何安装Hive和如何远程链接Hive. 本章, 我们介绍下Hive的基本文件结构和操作.基础知识Hive的所有数据都存储在HDFS上, 没有专门的数据存储格式(支持 Text、SequenceFile、ParquetFile、RCFILE等) (Text与SequenceFile为Hadoop自带的文件格式, ParquetFile与RCFILE为两个不同的公...原创 2019-04-08 23:58:03 · 6009 阅读 · 1 评论 -
HBase 基本原理
前言作为Hadoop体系中BigTable中的具体实现. HBase中主要解决的如何存储数据, 并建立相应索引, 快速查找数据. 其特性是写快, 读慢.本章就简单的聊聊这些过程: 存储数据/查找数据.基础知识在前面的章节內, 已经讲过HBase內主要有如下的组成部分.TableRow KeyColumns FamilyCellTime Stamp这边不再重复啰嗦. 详细...原创 2019-04-11 20:22:46 · 283 阅读 · 0 评论 -
Hive 远程链接(hiveserver2/beeline)
前言在上一章内, 我们安装了Hive, 并初次尝试了创建表和查询表的操作. 在本章内, 我们继续上章的内容了解Hive的相关操作.基础知识Hive的所有数据都存储在HDFS上, 没有专门的数据存储格式(支持 Text、SequenceFile、ParquetFile、RCFILE等) (Text与SequenceFile为Hadoop自带的文件格式, ParquetFile与RCFILE...原创 2019-04-08 16:51:59 · 2943 阅读 · 0 评论 -
HBase MR
前言在前面的章节内, 我们介绍了如何安装与操作HBase. 本章, 我们将讲解下HBase MR的相关操作. 这段内容在开发的过程中, 经常用来构建索引. 以提高用户的搜索效率.前置条件JDKHadoopHBaseHBase API正文Reference[1]. [How to] MapReduce on HBase ----- 简单二级索引的实现[2]. Elast...原创 2019-04-11 18:37:18 · 445 阅读 · 0 评论 -
Hive Client JDBC
前言在前面的章节内, 我们介绍了Hive的安装、远程链接和基本使用. 本章, 我们介绍下如何在Java内完成这些操作.正文pom.xml 文件<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc&...转载 2019-04-10 23:31:17 · 540 阅读 · 0 评论