大数据
文章平均质量分 91
SunnyRivers
在通信、游戏、互联网、新能源等不同行业从事过多年大数据开发相关工作,想通过博客和大家一起分享大数据技术带来的经验和乐趣。
展开
-
深入理解Apache YARN的调度策略
理想情况下,YARN应用发出的资源请求应该立刻给予满足。然而现实中资源是有限的,在一个繁忙的集群中上,一个应用经常需要等待才能得到所需要的资源。YARN调度器的工作就是根据既定策略为应用分配资源。调度通常是一个难题,并且没有一个所谓的“最好”策略,这也是为什么YARN提供了多种调度器和可配置策略供我们选择的原因。接下来本文将深度探讨这个问题。原创 2023-07-10 18:00:37 · 500 阅读 · 0 评论 -
通俗易懂理解对象存储
使用对象存储,对象保存在单个存储桶中,而不是作为文件夹内的文件保存。相反,对象存储整合了构成文件的数据片段,将所有用户创建的元数据添加到该文件,并附加自定义标识符。这使您可以根据存储桶的功能和特征来检索和分析其中的任何对象,而无论文件类型如何。多年来,随着互联网的发展以及数据源和数据类型的不断丰富,全世界的数据存储需求也在不断演变。传统的文件存储和块存储并不能很好地处理产生的海量数据,尤其是天生不适合结构化数据存储方法的非结构化数据。对象存储是一种以非结构化格式(称为对象)存储和管理数据的技术。原创 2023-06-02 13:56:34 · 1704 阅读 · 0 评论 -
StarRocks VS ClickHouse,携程大住宿智能数据平台的应用
携程是全球领先的一站式旅行平台,现有员工约30000人,公司旗下的平台可面向全球用户提供一套完整的旅行产品、服务及差异化的旅行内容。携程大住宿部是国内最大的酒店分销电子商务平台,在全球拥有约63万家国内酒店和70万家国际酒店。携程大住宿数据智能平台中70%的实时数据场景已经接入StarRocks,查询响应速度平均在200ms左右,超过500ms的慢查询数大幅度减少,同时人力和硬件成本大大降低。后续会将剩余的实时场景和离线场景全部迁入StarRocks。转载 2023-03-16 10:26:57 · 721 阅读 · 0 评论 -
数据湖全面解析
数据湖近几年迅速蹿红,今天笔者做一个综述,包括数据湖的缘起、数据湖的定义、数据湖的特征、数据湖的技术、数据湖的趋势和数据湖的案例六大部分,如果你要入门数据湖,一定要看一看。Wikipedia:数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习。转载 2022-12-13 10:28:43 · 2578 阅读 · 0 评论 -
云平台:赋能企业数字化转型的关键利器
云平台简介原创 2022-10-13 15:33:32 · 2134 阅读 · 0 评论 -
大数据面试官别再问闭包了
前言说到大数据开发,scala这门语言似乎不可避免的要涉及到,尤其是在spark横行的时代,可让人奇怪的是面试大数据问道scala的时候,有些比较low的面试官会问:什么是闭包???啥情况?这个在无数语言中都泛滥的词,你问这个只会让你显得很low。那么遇到这种面试官,你只要按照我下面短短的一句话回答即可,回答完马上站起来说一句:不好意思,你们公司不适合我。一句话回答这种很low的面试官定义在一个函数内部的函数\color{blue}{定义在一个函数内部的函数}定义在一个函数内部的函数装B结束后还原创 2020-09-17 14:58:51 · 260 阅读 · 0 评论 -
电信行业常用术语
前言最近从事与电信行业相关的工作,这里把常用的几个术语进行汇总三大数据域O域(运营域)、B域(业务域)、M域(管理域)特指电信行业大数据领域的三大数据域。B域(业务域)= business support system的数据域,O域(运营域)= operation support system的数据域,M域(管理域)= management support system的数据域。B域...原创 2020-04-22 14:47:31 · 5513 阅读 · 1 评论 -
HDFS某个节点的磁盘满了
前言昨天还是周末,公司群里就有人@,说集群有问题了,敲完Hive一直卡在哪里进不去,于是我很快登上WebUi,看到了这么一幕:这台节点的磁盘满了,其他的数据分布都比较平均为什么会这样这里就不得不说一下HDFS复本存放策略了:namenode如何选择在哪个datanode存储复本(replica)?这里需要针对可靠性、写入带宽和读取带宽进行权衡。例如,把所有复本都存储在一个节点损失的写...原创 2019-12-23 16:27:37 · 4961 阅读 · 2 评论 -
Hadoop面向行和面向列格式详解
前言说到HDFS上面存储数据的格式,一般会想到面向行存储的Avro、SequenceFile(现在较少用);面向列存储的Parquet、ORC等,那么在存储的时候如何选择呢?面向行存储格式(以Avro和SequenceFile为例)Avro基本概念Avro是一个独立于编程语言的数据序列化系统。引入的原因:解决Writable类型缺乏语言的可移植性。Avro数据文件主要是面向跨语言使...原创 2020-01-17 11:10:54 · 1351 阅读 · 0 评论 -
修改CDH的HostName和IP
前言搭建集群的时候,犯了一个低级错误,当时竟然没有按照官方文档来,修改hostname的时候,竟然使用了临时的命令:hostname xxx然后重启服务器后,整个集群不可用了,因为hostname发生了改变修改HostName临时修改hostname xxx永久修改sudo vim /etc/hostname在该文件中写上hostname名称即可更详细的内容可参考...原创 2020-01-09 17:04:22 · 1293 阅读 · 0 评论 -
HDFS文件的压缩
前言新搭建的集群,需要进行各种测试,于是让一个同事导入一些测试数据,大约1.4T左右。我进行了一个简单的hive测试//故意增加shuffleSELECT DISTINCT(COUNT id) FROM test_table;谁知道…就这么一个简单的SQL,半个小时过去后,仍然没有出结果追查原因原来同事从ftp拉取过来的数据是gzip格式的,他直接如到Hive表中…,而gzip格式的...原创 2020-01-04 18:06:11 · 7718 阅读 · 1 评论 -
kudu基础入门
前言新建的大数据集群,就想把之前没用过的组件都进行测试,看到两篇算是比较全面的Kudu相关的文章,这里就进行转载1、kudu介绍1.1 背景介绍在KUDU之前,大数据主要以两种方式存储;(1)静态数据:以 HDFS 引擎作为存储引擎,适用于高吞吐量的离线大数据分析场景。这类存储的局限性是数据无法进行随机的读写。(2)动态数据:以 HBase、Cassandra 作为存储引擎,适用于...转载 2020-01-03 10:17:44 · 1343 阅读 · 0 评论 -
修改HDFS文件所有者
前言想把HDFS上的mysql驱动文件,所有者由cloudera改为oozie,我的操作:hadoop fs -chown oozie /user/oozie/share/lib/lib_20191203182652/sqoop/mysql-connector-java-5.1.48.jar报错:chown: changing ownership of '/user/oozie/sha...原创 2019-12-20 17:12:52 · 3173 阅读 · 1 评论 -
Hue中Sqoop导数报错Could not load db driver class: com.mysql.jdbc.Driver
前言在Hue上面测试一个很简单的Sqoopimport--connectjdbc:mysql://10.169.xx.xxx/test--usernameroot--passwordroot--as-textfile--columnsid,name,english,chinese,math--tableexam--target-dirhdfs://master02:8...原创 2019-12-20 16:58:37 · 1774 阅读 · 1 评论 -
Yarn无法查看日志: Aggregation may not be complete, Check back later or try the nodemanager at xxxx:xxxx
前言最近这个新集群搭建完后,出现了很多问题,今天又出现了要给蛋疼的问题,执行了一个测试代码,想要通过yarn查看日志,可以用命令:yarn logs -applicationId application__1576828612082_0004_000001也可以直接再Web UI中点击查看:本来很简单的操作,谁知道在这个集群就报错了出现的问题点击Web中的logs后直接跳转到如下一...原创 2019-12-20 16:35:41 · 7415 阅读 · 3 评论 -
Hue由于主备NameNode切换引发的问题
前言最近今天依然在测试新集群的各个组件,发现了Hue出现了几个问题问题一点击文件:报错:问题二点击Workflow:出现的问题:页面一直卡在这转啊转,一直没有报错,只能从查看Hue日志,发现报的错和问题一,一模一样403 Client Error: Forbidden for url: http://master01:9870/webhdfs/v1/%3Fdefault_...原创 2019-12-19 14:59:13 · 628 阅读 · 0 评论 -
如何使用Hue上创建一个完整Oozie工作流
1. 文档编写目的在使用CDH集群中经常会有一些特定顺序的作业需要在集群中运行,对于需要多个作业顺序执行的情况下,如何能够方便的构建一个完整的工作流在CDH集群中执行,前面Fayson也讲过关于Hue创建工作流的一系列文章具体可以参考《如何使用Hue创建Spark1和Spark2的Oozie工作流》、《如何使用Hue创建Spark2的Oozie工作流(补充)》、《如何在Hue中创建Ssh的Ooz...转载 2019-12-19 11:55:11 · 451 阅读 · 0 评论 -
CDH6.2.1安装Kafka出现的问题
前言之前用的CDH 5.6.X版本,默认是没有Kafka的,刚刚搭建了一个新的集群,用的CDH6.2.1,自带了kafka不需要我们下载parcels包根据以往在CDH安装组件的经验,应该是非常easy的,没想到…问题一这里我选择了五台Broker,其他的不需要填写,在启动的时候报错:在网上搜了一圈,大概说是因为集群中broker默认都为0!!!我们必须得手动改为唯一的。于是我把...原创 2019-12-12 11:12:52 · 1682 阅读 · 0 评论 -
从入门到精通 - Fayson带你玩转CDH
CDH所有问题点击这里简直完美!!!转载 2019-12-02 10:24:25 · 593 阅读 · 0 评论 -
如何在Redhat7.4安装CDH6.2
前言公司新到了一批服务器,准备搭建一个专业版的CDH集群,于是和CDH官方要一份中文文档,他们给我发一个:微信公众号的连接我在这里进行一些整理CDH集群角色规划上面是来自官网根据不同的集群规模,分别分配Master Hosts、Utility Hosts、Gateway Hosts、Worker Hosts如何在Redhat7.4安装CDH6.2 (下面的内容全部来自官方给的资料)...转载 2019-12-02 10:12:37 · 609 阅读 · 0 评论 -
通过埋点搜集日志数据的简单架构
数据埋点后台数据库和日志文件一般只能够满足常规的统计分析,对于具体的产品和项目来说,一般还要根据项目的目标和分析需求进行针对性地“数据埋点”工作。所谓埋点,就是在额外的正常功能逻辑上添加针对性的统计逻辑,即期望的时间是否发生,发生后应该记录哪些信息,比如用户在当前页面是否用鼠标滚动页面、有关的页面区域是否曝光了、当前用户操作的时间是多少、停留时长多少,这些都需要前端工程师进行针对性地埋点才能满...原创 2019-11-28 15:03:44 · 1827 阅读 · 0 评论 -
免秘钥的两种方式
第一种方式(dsa)1.全部节点执行下面三个步骤ssh localssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys2.发送自己的公钥到其他所有节点(这里模拟有四个节点,只在node01节点做示范,其它节点类似)[root@no...原创 2018-08-21 15:12:14 · 659 阅读 · 0 评论 -
zookeeper启动后查看状态的Error contacting service. It is probably not running.错误
启动zookeeper后查看状态报错: 其原因是在编辑zoo.cfg配置文件时,指定了log的输出目录,但是却未创建。因此需要按照里面指定的目录进行创建。原创 2018-03-24 20:41:46 · 581 阅读 · 0 评论 -
Hive vs HBase (配合使用才是最佳方案)
前言Hive是什么数据仓库,用来分析HDFS数据Hive的作用用SQL访问HDFS数据HBase是什么NoSQL数据库HBase作用随机访问HDFS数据原创 2019-09-27 10:36:22 · 3291 阅读 · 0 评论 -
大数据分析项目生命周期
前言这里说的分析是狭义上的数据分析,并不包含数据挖掘,它们之间具体的区别后续文章会详细描述这里只做一个简单的总结如下表:差异角度数据分析数据挖掘定义描述和探索性分析,评估现状和修正不足技术性的“采矿”,发现未知的模式和规律侧重点实际的业务挖掘技术的落实,完成“采矿”过程技能统计学、数据库、Excel、可视化等过硬的数学功底和编程技术结果需...原创 2019-04-12 23:36:04 · 7442 阅读 · 0 评论 -
大数据就业前景
从Amazon GO无人超市的提出,到阿里巴巴无人超市“淘宝会员店”7月9日正式营业,无人零售概念已经进入人们的视野当中。但是呢,这些概念的实现,都与人工智能脱不了关系。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能之所以能取得突飞猛进的进展的背后,不能不说这些年来大数据长足发展的结果。人工智能和大数据有什么关系...转载 2018-04-01 11:17:34 · 16555 阅读 · 0 评论 -
Elasticsearch集群搭建
目的:先让集群跑起来然后再细细研究搭建步骤:(前提:都配置了Java环境)1.共享模式下给node01 node02 node03节点做如下四步:[root@node01 ~]# useradd xc[root@node01 ~]# echo hadoop | passwd --stdin xc[root@node01 ~]# mkdir -p /opt/software/es[root@nod...原创 2018-03-25 19:19:51 · 310 阅读 · 0 评论 -
加入MapReduce后完全分布式集群搭建
节点规划表1. hadoop03和hadoop04相互免秘钥(即两个resourcemanager主备免秘钥) 自我检测一下(不需要输密码证明自我免秘钥成功) 将hadoop03的公钥远程传递给hadoop04 到hadoop04查看 将hadoop03的公钥追加到日志文件 到hadoop03检测是否成功对hadoop04免秘钥 接下来让hadoop04对hadoop03免秘钥 自我检验:...原创 2018-03-25 13:05:57 · 429 阅读 · 0 评论 -
加入HA后的完全分布式集群搭建
节点规划表:新项目开始前先把原来的进行备份搭建步骤:1. (Hadoop01和Hadoop02相互免秘钥)Setup passphraseless sshNow check that you can ssh to the localhost without a passphrase: $ ssh localhostIf you cannot ssh to localhost without a ...原创 2018-03-25 11:22:36 · 364 阅读 · 0 评论 -
HDFS完全分布式集群搭建
在上一篇伪分布式的基础上搭建完全分布式集群一、配置环境1. 每一台主机安装jdkhadoop01已经安装过了,先把安装包,远程发送给hadoop02 hadoop03 hadoop04服务器 然后给每一台都安装 配置环境变量(第二步免秘钥配完更统一配置,通过分发更快)2. 免秘钥hadoop01作为namenode 其他三台作为datanode,他们需要拿到hadoop01的公钥(后面写一个had...原创 2018-03-24 17:43:35 · 498 阅读 · 0 评论 -
HDFS伪分布式集群搭建
一、操作系统环境配置1. 安装jdkrpm文件默认安装目录是 /usr 复制jdk路径配置环境变量配置环境变量的目录 环境配置代码 刷新配置信息 使用jps检测是否配置成功(使用之前一定要先执行. /etc/profile来刷新配置信息 ) 2. 免秘钥 执行完上面两条程序后: 检测密钥是否设置成功: 发现现在登录自己的已经不需要输入密码了,说明密钥设置成功。二、Hadoop部署1. 传入Hado...原创 2018-03-24 16:36:50 · 385 阅读 · 0 评论 -
Linux 基本命令不能用的解决方法
问题描述最近某次,新建一个ssh客户端后,发现好多命令都不能用了比如:ls, vi, cat等,提示:-bash: XX: No such file or directory12但在其它还未关闭的ssh终端中可以使用,推测是/etc/profile文件的问题,显示$PATH后发现不对;切换root权限准备修改profile文件后,发现vi命令不能用,最后百度到了解决方法。解决方法在ssh终端中执...转载 2018-03-24 14:53:05 · 882 阅读 · 0 评论 -
大数据面试都问些什么?
其实不管是哪家公司面试,都是根据你的简历来对你进行提问,所以自己简历上面写的知识点都要全部对答如流。还有慎用精通这样的字眼,工作五年以上的人,也不敢说自己对哪一方面能够达到精通的地步。下面是网上找的一些面试经历,可以看得出来问的都是大数据的基本知识点(可查阅这个大纲),而且现在大数据的面试官也不见得都是大牛,保持好心态,把自己真正懂的知识很流畅的表达出来即可。公司A:1.讲讲你做的过的项目。 项目...原创 2018-04-22 19:48:40 · 6258 阅读 · 0 评论 -
Hadoop架构中各个集群在开发中的作用
学习大数据,如果只是零零散散地学习各个模块,就会深陷其中,很难深入了解hadoop架构中各个集群的作用。那么在实际开发中,究竟是怎样的一个流程呢?先看下面一张流程图:接下来就用一些大白话,来讲解每个模块的实际应用。大数据工程师应该从哪里收集用户的访问数据呢?一般可以从两个地方可以取,一个是客户端,一个是服务端。如果从服务器取数据,比如服务器每天在晚上8点到9点之间用户访问量非常多,而如果我们也从服...原创 2018-04-30 09:28:42 · 2729 阅读 · 0 评论 -
Hadoop集群常用命令
hadoop上传文件hadoop fs -put a.txt /a/b下载文件hadoop fs -get /a/b/* ./查看文件hadoop fs -ls /a/b递归删除文件夹hadoop fs -rm -r /a/b分屏查看hadoop fs -cat /a/b/* | more统计文件行数hadoop fs -cat /a* ...原创 2019-01-24 09:40:09 · 630 阅读 · 0 评论 -
大数据博客
过往记忆lxw大数据田地子雨大数据飞谷云人工智能Poll的笔记about云美团技术博客董西成原创 2018-12-12 10:40:21 · 860 阅读 · 0 评论 -
CDH-5.13.1离线安装教程
总结了一份比较详细的文档,希望能帮助到一些同学 下载文档原创 2018-09-03 09:42:21 · 371 阅读 · 0 评论 -
设置时间同步(ntp)详细步骤
所有节点同时操作如下步骤1.安装ntpyum install ntp2.配置开机启动chkconfig ntpd on3.检查是否设置成功(2-5为on则为成功)chkconfig --list ntpd4.设置同步(时钟服务器根据实际环境设置、本文采用210.72.145.44-国家授时中心服务器IP地址)ntpdate -u ntp.sjtu.edu.cn...原创 2018-08-21 11:34:18 · 2145 阅读 · 0 评论 -
Linux编译安装nginx详细步骤
首先为什么linux有些软件需要编译安装(相对于rpm安装:包yum安装:仓库,这两个安装来说真的有些繁琐)? 为什么服务器软件需要编译安装?一个流传很广的说法是编译安装性能更好,其实这是个谣言服务器CPU事实已经被Intel垄断了,就那么几种型号,编来编去生成的机器码是一样的。Intel宣传自己的编译工具Intel C++ Compiler 比GCC编译出来性能要提升10%-20%,这就是...原创 2018-07-29 00:22:13 · 10835 阅读 · 2 评论 -
一次性搭建Hadoop高可用集群
前期准备:1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts注意:如果你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等)/etc/hosts里面要配置的是内网IP地址和主机名的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等哪些节点需要免密?(主和备之间需要免秘钥)node...原创 2018-07-03 16:10:20 · 725 阅读 · 1 评论