
精通大数据系列
文章平均质量分 80
专栏涵盖Hadoop、Hive、Sqoop、Storm、Flume、Kafka、Spark、Flink等大数据分析技术,带你从零进阶大数据专家
冰 河
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
精通Zookeeper系列开篇:进大厂不得不学的分布式协同利器!
深入学习分布式协同利器Zookeeper,看这一个专题就够了!原创 2021-04-03 23:55:13 · 3948 阅读 · 21 评论 -
Mahout之——数据源为MySQL数据库
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/827952641、Tomcat基于JNDI配置数据库在Tomcat的server.xml中增加如下配置<Resource name="jdbc/taste" auth="Container" type="javax.sql.DataSource" use...原创 2018-09-20 23:38:47 · 2786 阅读 · 1 评论 -
Mahout之——Mahout推荐算法API详解
前言用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景进行算法配置和调优。本文将深入算法API去解释Mahout推荐算法底层的一些事。目录Mahout推荐算法介绍 算法评判标准:召回率与准确率 Recommender.java的A...转载 2018-09-18 23:52:05 · 3006 阅读 · 0 评论 -
Mahout之——mahout0.9注意事项SlopeOneRecommender
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/82762012今天整合SSlopeOneRecommender推荐算法,结果显示找不到SlopeOneRecommender类,上网查资料得知此类的全类名为:org.apache.mahout.cf.taste.impl.recommender.slopeone.SlopeOn...原创 2018-09-18 18:21:53 · 1341 阅读 · 0 评论 -
Kafka又出问题了!
解决了Kafka的Rebalance问题,我想杀了运维祭天!!原创 2021-03-01 23:50:28 · 1742 阅读 · 2 评论 -
Spring整合Kafka实现批量消费和手动提交offset
Spring整合Kafka实现批量消费和手动提交offset原创 2020-12-07 01:41:57 · 2063 阅读 · 0 评论 -
Flume之——配置详解
Flume:===================== Flume是一种分布式的、可靠的、可用的服务,可以有效地收集、聚合和移动大量的日志数据。 它有一个基于流数据的简单而灵活的体系结构。 它具有健壮性和容错能力,具有可调的可靠性机制和许多故障转移和恢复机制。 它使用一个简单的可扩展数据模型,允许在线分析应用程序。 source:源 ...转载 2019-08-01 13:39:20 · 1263 阅读 · 0 评论 -
Storm之——Storm on Yarn 部署
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/791725731. 环境介绍一、节点与服务映射关系iphost服务192.168.209.121masterNamenode、NodeManager、DataNode、zookeeper192.168.2原创 2018-01-26 15:59:22 · 1504 阅读 · 0 评论 -
Hive之——HQL 数据定义
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/82469740一、创建表1、创建Hive管理表create table student(name string,age int,cource array<string>,body map<string, float>,address ...原创 2018-09-06 23:16:17 · 1263 阅读 · 0 评论 -
Hadoop之——hadoop 3.x Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/93385195报错信息:在Hadoop3.x上执行MapReduce程序时,报出如下错误:[2019-06-23 16:10:35.016]Container exited with a non-zero exit code 1. Error file: prelau...原创 2019-06-23 16:16:22 · 3892 阅读 · 3 评论 -
Hive之——Hive2.3.4 安装和配置
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/88014099Hive 是基于 Hadoop 的一个数据仓库,可以将结构化的数据文件映射为一张表,并提供类 sql 查询功能,Hive 底层将 sql 语句转化为 MapReduce 任务运行。下载 Hive2.3.4 到 maste r的 /home/dc2-user 并解...原创 2019-02-28 09:51:33 · 3430 阅读 · 0 评论 -
Storm之——Storm集群开启HA高可用
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/999726241.修改storm.yaml文件配置可以启动nimbus的节点:nimbus.seeds: ["binghe101", "binghe102", "binghe103"]2.启动Nimubs和UI高可用在集群中配置的三个节点启动nimbus和UI...原创 2019-08-21 16:24:26 · 964 阅读 · 0 评论 -
Storm之——Storm2.0.0配置详解
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/99126674Storm2.0.0中defaults.yaml文件的配置如下(链接为:https://github.com/apache/storm/blob/v2.0.0/conf/defaults.yaml):# Licensed to the Apache Soft...原创 2019-08-10 23:23:09 · 4411 阅读 · 0 评论 -
Storm之——启动Storm报错(ImportError: No module named argparse)
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/98970056问题:启动Storm的nimbus和supervisor时,会报错,比如在命令行输入如下两个命令中的任何一个。storm nimbusstorm supervisor均会报如下错误信息。Traceback (most recent call ...原创 2019-08-09 17:33:24 · 2599 阅读 · 0 评论 -
Kafka之——Python3.X执行Python编写的生产者和消费者报错
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/98966741Python3.X执行Python编写的生产者和消费者报错,报错信息如下:Traceback (most recent call last): File "mykit_kafka_producer.py", line 9, in <module&g...原创 2019-08-09 16:51:18 · 4302 阅读 · 1 评论 -
Flume之——监听Nginx日志发送到Hive表
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/98945268一、环境准备首先,有关Hadoop环境的搭建,大家可以参考博文《Hadoop之——基于3台服务器搭建Hadoop3.x集群(实测完整版)》,有关Nginx的安装和配置,可以参见博文《Nginx+Tomcat+Memcached负载均衡集群服务搭建》,有关Hiv...原创 2019-08-09 11:13:57 · 1058 阅读 · 0 评论 -
Kafka之——三种消费模式
自动提交offset 以下实例代码展示了如何自动提交topic的offset:public void autoOffsetCommit() { Properties props = new Properties(); props.put("bootstrap.servers", "binghe100:9092"); props.put("group.id",...原创 2019-08-03 21:51:24 · 25803 阅读 · 4 评论 -
Flume之——监控
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/98127601Http监控这种监控方式比较简单,只需要在启动Flume命令中加入Http监控配置,如下命令所示:flume-ng agent -c /usr/local/flume-1.9.0/conf -f /usr/local/flume-1.9.0/conf/f...原创 2019-08-02 00:49:44 · 826 阅读 · 0 评论 -
Flume之——配置多个Sink源(一个Source对应多个Channel和Sink)
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/98055100配置模型如下图:Flume的配置如下:myagent.sources = r1myagent.sinks = k1 k2myagent.channels = c1 c2myagent.sources.r1.selector.type = rep...原创 2019-08-01 14:18:06 · 8188 阅读 · 0 评论 -
Hadoop之——Flume采集Nginx日志到Hive的事务表
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/97975539注意:笔者这里使用的各软件版本为:Hadoop 3.2.0、Flume 1.9.0、Hive 2.3.5、Nginx 1.17.2。简单流程示意图如下:1.Nginx数据格式有关Nginx的安装和配置可以参见博文《Nginx+Tomcat+Memc...原创 2019-07-31 23:25:02 · 1484 阅读 · 0 评论 -
Flume之——配置案例
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/97934236监听telnet 44444端口myagent.sources = r1myagent.sinks = k1myagent.channels = c1# Describe/configure the sourcemyagent.sources.r1.t...原创 2019-07-31 17:02:54 · 762 阅读 · 0 评论 -
Hadoop之——通过distcp并行复制
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/97814582distcp是一个分布式复制程序,改程序可以从Hadoop文件系统间复制大量数据,也可以将大量的数据复制到Hadoop中distcp的典型应用是在两个HDFS集群间传输数据hadoop distcp hdfs://binghe101/foo hdfs:/...原创 2019-07-30 20:28:51 · 1128 阅读 · 0 评论 -
Sqoop之——Sqoop连接数据库报错(找不到org/apache/commons/lang/StringUtils)
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/97135322问题:Sqoop连接数据库报错,报错信息为:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils at...原创 2019-07-24 15:33:49 · 5822 阅读 · 4 评论 -
Hive之——防止数据被误删除
1、HDFS层面开启trash功能(fs.trash.interval)被删除的数据在HDFS中的/user/$USER/.Trash目录中,开启这个功能秩序要将配置属性fs.trash.interval得知你设置成为合理的整数,单位是分钟。设置值1440为24小时。如果删除了重要的数据,可以重新建一张表,重新建所需的分区,再从.Trash目录将误删除的文件移动到正确的文件夹目录下。2、创建...转载 2019-07-21 23:27:06 · 2109 阅读 · 2 评论 -
Hive之——内部表与外部表相互相互转化
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/96768919直接上代码,大家都懂create table tablePartition(s string) partitioned by(pt string);alter table tablePartition add if not exists partition...原创 2019-07-21 22:09:04 · 3953 阅读 · 0 评论 -
Hive之——Hive-hiveserver2-beeline
在Hadoop集群中任选一台服务器作为Hive的服务器。主要配置Hive,配置好后,启动该服务器的meterstore,并配置<!--配置使远程客户端连接Hive服务器bidev-cdh005--><property> <name>hive.metastore.uris</name> <value>thrift:/...转载 2019-07-18 19:17:02 · 1278 阅读 · 0 评论 -
Hive之——使用hive的beeline连接报错hadoop is not allowed to impersonate hadoop (state=08S01,code=0)解决方案
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/96444889问题:使用hive的beeline连接Hive的远程模式终端时报错,报错信息为:hadoop is not allowed to impersonate hadoop (state=08S01,code=0)原因:hiveserver2增加了权限...原创 2019-07-18 19:01:29 · 2061 阅读 · 0 评论 -
Hadoop之——crontab 定时运行 hadoop 任务(以Hadoop用户身份运行crontab报错)
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/95964457问题:在/etc/crontab 里添加任务,想以hadoop 用户去执行这个脚本。*/5 * * * * hadoop /bin/sh /home/hadoop/runhadoop.sh一直报错,如下:crontab Error creati...原创 2019-07-15 14:28:42 · 2008 阅读 · 8 评论 -
Hadoop之——Permission denied error 13 - Python on Hadoop
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/95932591问题:在Hadoop中运行Python程序,命令行输入如下命令:-bash-4.1$ hadoop jar /usr/local/hadoop-3.2.0/share/hadoop/tools/lib/hadoop-streaming-3.2.0.jar...原创 2019-07-14 22:14:13 · 1409 阅读 · 1 评论 -
Hadoop之——实现全排序
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/95603288一般方法:有一种方式可以实现Hadoop的全排序,那就是将多个Map阶段输出的排序中间结果全部输入到一个Reducer类中,这种方式的并行度不高,性能瓶颈也比较明显,无法发挥分布式计算的优势。改进的方法:如果将Map任务的输出结果拼接起来称为一个全局的...原创 2019-07-12 12:46:50 · 965 阅读 · 3 评论 -
Hadoop之——Hadoop3.0前后命令对比
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/95450246启动命令变化对比总结如下: Hadoop 3.0以前版本的命令 Hadoop 3.0之后版本的命令启动进程:hadoop-daemons.sh start 进程名 ——> hdfs --workers -...原创 2019-07-11 09:52:55 · 1169 阅读 · 1 评论 -
Hadoop之——setfacl 设置访问控制列表异常
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/94992969默认情况下,在命令行执行Hadoop的设置访问控制列表时,出现异常,具体异常信息如下:setfacl: The ACL operation has been rejected. Support for ACLs has been disabled by s...原创 2019-07-07 15:11:40 · 2848 阅读 · 3 评论 -
Hadoop之——HDFS容错
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/94721335HDFS的容错能力大概可以分为两个方面:文件系统的容错性以及Hadoop本身的容错能力。文件系统的容错性心跳机制,在Namenode和Datanode之间维持心跳检测,当由于网络故障之类的原因,导致Datanode发出的心跳包没有被Namenode正常收到...原创 2019-07-05 10:58:26 · 2300 阅读 · 1 评论 -
Google大数据之——三篇著名论文中文版
Google File System中文版Google Bigtable中文版Google MapReduce中文版转载 2019-07-02 09:01:49 · 1344 阅读 · 0 评论 -
Hadoop之——Hadoop3.x集群动态增加和删除DataNode与NodeManager节点
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/94164259本文是在《Hadoop之——基于3台服务器搭建Hadoop3.x集群(实测完整版)》博文的基础上进行操作的,在原有Hadoop集群的基础上动态增加并删除“binghe204”服务器上的DataNode与NodeManager节点。一、准备工作主要准备的工作...原创 2019-06-29 15:44:19 · 4212 阅读 · 2 评论 -
Hadoop之——Hadoop目录结构说明
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/93927081首先,使用命令“ls”查看Hadoop 3.2.0下面的目录,如下所示:-bash-4.1$ lsbin etc include lib libexec LICENSE.txt NOTICE.txt README.txt sbin sha...原创 2019-06-27 23:31:20 · 3702 阅读 · 0 评论 -
Hadoop之——基于3台服务器搭建Hadoop3.x集群(实测完整版)
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/93892479一、 服务器规划二、Hadoop集群环境的准备搭建Hadoop集群环境之前,需要为搭建Hadoop集群环境做一些相关的准备工作,以达到正确安装Hadoop集群的目的。1.添加hadoop用户身份以root身份登录每台虚拟机服务器,在每台服务器...原创 2019-07-14 08:37:52 · 9161 阅读 · 1 评论 -
Hadoop之——Hadoop3.x运行自带的WordCount报错Container exited with a non-zero exit code 1.
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/93750832问题:今天,基于Hadoop3.2.0搭建了Hadoop集群,对NameNode和Yarn做了HA,但是在运行Hadoop自带的WordCount程序时报错了,具体报错信息为:2019-06-26 16:08:50,513 INFO mapreduce....原创 2019-06-26 16:56:11 · 6455 阅读 · 1 评论 -
Hadoop之——Hadoop3.x端口变动
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/93382245Hadoop3.x相较于之前的版本来说,在端口的设置上发生了一些变化,先就这些端口变化总结如下:Namenode ports: 50470 --> 9871, 50070 --> 9870, 8020 --> 9820Secondary N...原创 2019-06-23 15:30:52 · 5941 阅读 · 0 评论 -
Hadoop之——Linux下sudo命令报错:hadoop is not in the sudoers file. This incident will be reported.
转载请注明出处:https://blog.csdn.net/l1028386804/article/details/93380235当在终端执行sudo命令时,系统提示“cuser is not in the sudoers file”:具体报错信息为:-bash-4.1$ sudo vim /etc/profileWe trust you have received the u...原创 2019-06-23 13:13:05 · 5249 阅读 · 1 评论