- 博客(17)
- 资源 (1)
- 收藏
- 关注
原创 kafka 中相关组件topic、broker、producer、consumer原理及负载均衡策略
目录1.kafka 2.topic 3.broker 4.producer 5.consumergroup 6.负载均衡策略1.kafkakafka是类jms消息队列,与jms不同的是,kafka可以有多个消费者consumer主动拉取数据。2.topictopic是逻辑上:一个目标发送目的地,物理上:一个磁盘上的partition的目录。一个topic可以对应多个...
2018-12-31 21:16:26 6496
原创 解决安装Kafka 非root用户不能正常启动的问题
目录1. 问题:安装kafka,使用root正常启动,但是非root不能启动,提示信息:java.io.FileNotFoundException: /export/servers/logs/kafka/.lock (权限不够) 2. 方案:修改提示信息权限chmod1. 问题:安装kafka,使用root正常启动,但是非root不能启动,提示信息:java.io.FileNotFound...
2018-12-30 16:33:34 5143 2
原创 大数据技术相关启动命令汇总ING...
目录启动命令1. hadoop 2. zookeeper 3. hive 4. hbase 5. storm 6. kafka1.hadoop启动命令格式化HDFS $ hdfs namenode -format $ hdfs namenode -format –clusterID itcast ###clusterID必须与bi的相同 ferderati...
2018-12-30 16:00:24 252
原创 hadoop 之 storm (编程模型、并发度、架构模型)
目录1、编程模型 2、并发度 3、架构模型1、编程模型 DataSource:外部数据源; Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt; Bolt: 接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理,发送给下一个Bolt或者是存储到某种介质上,介质可...
2018-12-25 10:23:17 287
原创 hadoop 之 hbase 原理 (hmaster, hregionserver, zookeeper, 读写流程及组件职责)
目录1、体系图 2、写流程 3、flush过程 4、合并过程 5、读过程 6、hmaster职责 7、hregionserver职责 8、client职责 1、体系图2、写流程client向hregionserver发送写请求。 hregionserver将数据写到hlog(write ahead log),为了数据的持久化和恢复。 hregionserve...
2018-12-23 19:29:01 1537 1
原创 搭建三节点的 Hbase 环境及动态添加主从节点
目录试验环境 hadoop-2.6.4 + zookeeper-3.4.5 + hbase-0.99.2 搭建过程 hbase-0.99.2 动态添加主节点、从节点1、试验环境1.1 节点为三个:192.168.2.181 hbase1 (主节点) 192.168.2.182 hbase2 (从节点) 192.168.2.183 hbase3 (...
2018-12-20 11:32:43 2041
原创 K最近邻分类算法原理及实例分析
目录概述 原理 要点 实例1、概述K最近邻(k-Nearest Neighbor,KNN),指导思想是“近朱者赤,近墨者黑”,由你的邻居来推断出你的类别,KNN分类算法是最简单的机器学习算法。2、原理从训练集中找到和新数据最接近的k条记录,然后根据多数类来决定新数据类别,本质上,KNN是使用距离来计算相似度。算法涉及3个主要因素:训练数据集;距离或相似度的计算衡量;k的...
2018-12-14 11:26:48 5148
原创 朴素贝叶斯分类算法原理
目录概述 原理 要点1、概述朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种,贝叶斯分类算法以样本可能属于某类的概率来作为分类依据。贝叶斯分类算法是一大类分类算法的总称。2、原理如果一个事物在一些属性条件发生的情况下,事物属于A的概率大于属于B的概率,则判定事物属于A。朴素贝叶斯分类器 朴素贝叶斯分类器的表示形式: 当特征为为x时,计算所有类别的条件概率,...
2018-12-14 09:23:02 5024
原创 MR中自定义bean作为key,输出某组排序中最大值。
目录需求:MR中自定义bean作为key,输出某组排序中最大值。 方案:重写MR中groupingcomparator方法1.需求:MR中自定义bean作为key,输出某组排序中最大值。 场景:求出多个订单中,金额最大的商品价格。2.方案:重写MR中 groupingcomparator 方法 定义排序:orderBean 类,重写compareto方法,订单相同...
2018-12-13 11:51:52 558 1
原创 关键路径转换分析---漏斗模型
目录需求 方案 总结1.需求 在一条指定的业务流程中,各个步骤的完成人数及相对上一个步骤的百分比。2.方案: 使用漏斗模型 查询每一个步骤的总访问人数 create table dw_route_numbs as select 'step1' as step,count(distinct remote_addr) as num...
2018-12-12 15:02:24 774
原创 centos6.4 使用yum 软件 安装mysql 5.6 详细教程
目录yum 安装 mysql 安装,远程登录,设置utf-8编码1. yum 安装centos 中安装yum 软件请参考文章: https://blog.csdn.net/py_tamir/article/details/809621822.mysql 安装 检查系统是否安装其他版本的MYSQL数据# yum list installed | grep mysql...
2018-12-09 17:46:29 297
原创 解决 Hadoop 中 从节点 不能远程登录 主节点的MySQL数据库.
目录:Host 'shizhan04' is not allowed to connect to this MySQL server问题,及解决方案 Access denied for user 'root'@'localhost' (using password: YES) 问题,及解决方案1.问题: "Host 'shizhan04' is not allowed to conne...
2018-12-09 17:15:58 752
原创 数据迁移工具 sqoop 安装部署及实战
目录概述 工作机制 安装部署 实战1.概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库。2.工作机制 将导入或导出命令翻译成mapreduce程序来实现,在...
2018-12-09 10:38:03 246
原创 工作流调度器 azkaban 安装部署
目录准备工作 安装 azkaban web服务器安装 azkaban executor 安装 配置SSL 配置文件 启动 备注 1.准备工作Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL目前azkab...
2018-12-08 21:10:39 250
转载 hadoop 之 flume 日志采集框架
目录概述 运行机制 简单结构 复杂结构1、概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可实现。Flume针对特殊场景也具备良好的自定义扩展能力,...
2018-12-06 08:59:15 286
原创 Centos 中 PING 外部链接,出现 ping: unknown host XXXXX 的解决方案
目录问题 方案1. 问题:在终端ping 外部链接时,出现 “ ping: unknown host XXXXX” 问题???2. 方案:步骤一:vi /etc/resolv.conf 添加nameserver 192.168.2.2nameserver 8.8.8.8步骤二: vi /etc/sysconfig/network-scripts/ifcfg...
2018-12-05 22:27:59 524
原创 Hive 中 各种Join 操作及实例
目录:数据 建表 操作正文:1、数据a:+-------+---------+--+| a.id | a.name |+-------+---------+--+| 1 | a || 2 | b || 3 | c || 4 | d || 7 | y || 8 ...
2018-12-03 22:00:20 527
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人