大数据处理平台
文章平均质量分 87
Data_IT_Farmer
BJUT 2014级 计算机学院小硕一枚,现为某上市金融公司--高级大数据开发工程师一枚。自20170701开始记录自己的技术工作生涯!广结天下技术之友,笑对未来技术之难题!
展开
-
linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore
linux服务器的物理CPU,CPU核数,逻辑CPU及Hadoop的Vcore1、Linux服务器的核数的概念物理CPU: 服务器上真实存在的CPU,可以看到CPU的核 (core): 一个CPU上包含多少核(core),真实存在但不能直接看到 总核数 = 物理CPU个数 X 每颗物理CPU的核数 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 在没有开启超线程时,总核数 = 总逻辑CPU个数,如果开启超线程,则总核数 < 总逻辑CPU转载 2021-04-17 15:28:49 · 2264 阅读 · 0 评论 -
格式化namenode时报错No Route to Host from node1/192.168.3.101 to hadoop05:8485 failed on socket timeout ex
格式化namenode时 报错 No Route to Host from node1/192.168.3.101to hadoop:8485 failed on socket timeout exception: java.net.NoRouteToHostException: No route to host解决方案一、报错信息概要在配置hadoop高可用HA集群的时候,在使用had...原创 2020-02-17 12:17:26 · 4090 阅读 · 0 评论 -
Hive中HSQL中left semi join和INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN区别
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。sql中的连接查询有inner join(内连接)、left join(左连接)、right join(右连接)、full join(全连接)left semi join(左半连接)五种方式,它们之间其实并没有太大区别,仅仅是...原创 2019-02-25 01:37:52 · 28269 阅读 · 3 评论 -
Flume中的HDFS Sink配置参数说明及输出压缩配置
关键字:flume、hdfs、sink、配置参数滚动条件与输出hdfs的文件的压缩配置Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下。channel type hdfs path写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host...转载 2019-03-12 11:28:34 · 7139 阅读 · 0 评论 -
数据仓库ODS、DW和DM概念区分
数据仓库ODS、DW和DM概念区分今天看了一些专业的解释,还是对ODS、DW和DM认识不深刻,下班后花时间分别查了查它们的概念。ODS——操作性数据DW——数据仓库DM——数据集市1.数据中心整体架构数据中心整体架构数据仓库的整理架构,各个系统的元数据(包括MySQL等DB数据库,hdfs日志,原始文件等类型)通过ETL同步到操作性数据仓库ODS中,对ODS数...转载 2019-03-16 15:06:51 · 4666 阅读 · 0 评论 -
数据仓库DW、ODS、DM概念及其区别
数据仓库DW、ODS、DM概念及其区别一、整体结构在具体分析数据仓库之前先看下一下数据中心的整体架构以及数据流向数据中心整体架构DB 是现有的数据来源(也称各个系统的元数据),可以为mysql、SQLserver、文件日志等,为数据仓库提供数据来源的一般存在于现有的业务系统之中。 ETL的是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标...转载 2019-03-16 15:32:38 · 35852 阅读 · 4 评论 -
hive 和hadoop数据压缩与存储格式选择
hive和hadoop 数据压缩与存储格式选择概述为什么会出现需要对文件进行压缩?在Hadoop中,文件需要存储、传输、读取磁盘、写入磁盘等等操作,而文件的大小,直接决定了这些这些操作的速度。压缩在大数据中的使用为什么需要压缩?1) 存储2) 网络/磁盘IO常见压缩方式、压缩比、压缩解压缩时间、是否可切分原文件:1403MSnappy 压缩:701M,压缩...转载 2019-03-12 11:55:53 · 1105 阅读 · 1 评论 -
【超级有用】大数据的压缩格式
为什么map端用snappy压缩格式;而reduce用gzip或者bzip2的压缩格式呢?为什么每个reduce端压缩后的数据不要超过一个block的大小呢? 检查Hadoop版本的压缩格式是否可用【我在Hadoop cdh 5.7版本中查看Hadoop压缩格式】$ hadoop version$ hadoop checknative一、在解答上述问题以前,我们先...转载 2019-07-18 10:30:59 · 1013 阅读 · 1 评论 -
Python中: unsupported format character ''' (0x27)
Python中: unsupported format character ''' (0x27)1)MySQL DB使用%运算符将参数放入查询中,因此查询字符串中的任何单个%字符都被解释为参数说明符的开始。2)%在python中三个特殊的符号,如%s,%d分别代表了字符串占位符和数字占位符。例子一、今天写python程序,用pymysql从数据库查询数据,使用like模糊匹配报错:...转载 2019-07-19 11:32:47 · 20211 阅读 · 2 评论 -
干货请收好:终于有人把用户画像的流程、方法讲明白了
在日常,我们很习惯的将有相同特点特征的人群进行统一的归纳:比如“高富帅”,“白富美”……也因为有了这样的标签,构成了群体“用户画像”的一部分。 在“大数据”火在了各行各业的今天,“用户画像”也得到了前所未有的重视。对于移动互联网来说,用户画像在产品设计、个性化运营、精准营销等众多环节担任着关键角色。1、什么是用户画像? 用户画像的前提是一系列真实数据之上的目标群体的用户模型,即我们...原创 2019-01-09 17:43:16 · 16948 阅读 · 2 评论 -
分布式系统中的幂等性
分布式系统中的幂等性我们的系统大多拆分为分布式SOA,或者微服务,一套系统中包含了多个子系统服务,而一个子系统服务往往会去调用另一个服务,而服务调用服务无非就是使用RPC通信或者restful,既然是通信,那么就有可能再服务器处理完毕后返回结果的时候挂掉,这个时候用户端发现很久没有反应,那么就会多次点击按钮,这样请求有多次,那么处理数据的结果是否要统一呢?那是肯定的!尤其再支付场景。 ...转载 2018-10-12 20:16:55 · 425 阅读 · 0 评论 -
【Flume】【源码分析】深入flume-ng的三大组件——source,channel,sink
【Flume】【源码分析】深入flume-ng的三大组件——source,channel,sink概览flume-ng中最重要的核心三大组件就是source,channel,sinksource负责从源端收集数据,产出eventchannel负责暂存event,以备下游取走消费sink负责消费通道中的event,写到最终的输出端上以上是总体的一个简单结构图,下面我们来深入每一个组件的内部看看:1、...转载 2018-04-28 19:38:37 · 460 阅读 · 0 评论 -
安装完Hadoop之后,命令行输入hadoop却找不到命令的解决方法
安装完Hadoop之后,命令行输入hadoop却找不到命令的解决方法一、大多数原因是没有配置环境变量解决方法 1. cd /etc/profile 2. 把这三条加到proflie文件的最后export JAVA_HOME=XXXX(在安装了jdk的前提下,echo $JAVA_HOME可以查看得到)export HADOOP_HOME=XXX(hadoop的安装路径)export PATH=.:...原创 2018-06-14 11:03:39 · 33151 阅读 · 0 评论 -
查看进程状态信息命令 jps - (Java Virtual Machine Process Status Tool) 命令介绍
jps 名称: jps - Java Virtual Machine Process Status Tool 命令介绍jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。jps主要用来输出JVM中运行的进...转载 2018-07-18 14:28:10 · 1243 阅读 · 0 评论 -
【hbase】关于HBase报错org.apache.hadoop.hbase.NotServingRegionException的异常分析
关于HBase报错org.apache.hadoop.hbase.NotServingRegionException的异常分析 近期和一个朋友交流,他们的业务系统使用HBase做为底层的数据存储。高峰期的时候偶尔出现org.apache.hadoop.hbase.NotServingRegionException,严重影响了业务系统的正常运行。分析日志后得到这样的错误:1、刚开始报...转载 2018-07-28 22:19:23 · 7072 阅读 · 0 评论 -
Spark与Hadoop关系
Spark与Hadoop关系Spark是一个计算框架Hadoop是包含计算框架MapReducehe分布式文件系统HDFS。Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储系统,可融入Hadoop生态。0、Spark与Hadoop MapReduce优势如下1)、中间结果输出 MapReduce的计算引擎将中间结果存储在磁盘上,进行存储和...转载 2018-08-09 10:53:58 · 3735 阅读 · 0 评论 -
Spark资源调度和任务调度过程介绍
Spark资源调度和任务调度过程介绍(ps.未验证)一、前述Spark的资源调度是个很重要的模块,只要搞懂原理,才能具体明白Spark是怎么执行的,所以尤其重要。自愿申请的话,本文分粗粒度和细粒度模式分别介绍。二、具体Spark资源调度流程图: Spark资源调度和任务调度的流程: 1、启动集群后,Worker...转载 2018-08-09 11:23:13 · 6275 阅读 · 0 评论 -
大数据CAP原则(CAP定理)、BASE理论
一、讲述CAP.BASECAP原则(CAP定理)、BASE理论 CAP原则又称CAP定理,指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。 CAP原则是NOSQL数据库的基石。Consistency(一致性)。 Availability(可用性)。Partitio...转载 2018-07-28 00:22:20 · 5710 阅读 · 0 评论 -
【运行异常】异常、堆内存溢出、OOM的几种情况
异常、堆内存溢出、OOM的几种情况 1堆内存溢出 2Java异常 OOM 1、堆内存溢出【情况一】: java.lang.OutOfMemoryError: Java heap space:这种是java堆内存不够,一个原因是真不够,另一个原因是程序中有死循环; 如果是java堆内存不够的话,可以通过调整JVM下面的配置来解决: < jvm-arg&g...转载 2018-08-08 17:13:18 · 4490 阅读 · 0 评论 -
阿里的odps是什么?
摘要: ODPS(Open Data Processing Service),是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案,现在已更名为MaxCompute,MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。ODPS(Open Data Processi...转载 2018-03-17 11:57:59 · 65368 阅读 · 0 评论