自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 kafka 中相关组件topic、broker、producer、consumer原理及负载均衡策略

目录1.kafka 2.topic 3.broker 4.producer 5.consumergroup 6.负载均衡策略1.kafkakafka是类jms消息队列,与jms不同的是,kafka可以有多个消费者consumer主动拉取数据。2.topictopic是逻辑上:一个目标发送目的地,物理上:一个磁盘上的partition的目录。一个topic可以对应多个...

2018-12-31 21:16:26 6496

原创 解决安装Kafka 非root用户不能正常启动的问题

目录1. 问题:安装kafka,使用root正常启动,但是非root不能启动,提示信息:java.io.FileNotFoundException: /export/servers/logs/kafka/.lock (权限不够) 2. 方案:修改提示信息权限chmod1. 问题:安装kafka,使用root正常启动,但是非root不能启动,提示信息:java.io.FileNotFound...

2018-12-30 16:33:34 5143 2

原创 大数据技术相关启动命令汇总ING...

目录启动命令1. hadoop 2. zookeeper 3. hive 4. hbase 5. storm 6. kafka1.hadoop启动命令格式化HDFS    $ hdfs namenode -format    $ hdfs namenode -format –clusterID itcast   ###clusterID必须与bi的相同  ferderati...

2018-12-30 16:00:24 252

原创 hadoop 之 storm (编程模型、并发度、架构模型)

目录1、编程模型 2、并发度 3、架构模型1、编程模型    DataSource:外部数据源;     Spout:接受外部数据源的组件,将外部数据源转化成Storm内部的数据,以Tuple为基本的传输单元下发给Bolt;     Bolt:     接受Spout发送的数据,或上游的bolt的发送的数据。根据业务逻辑进行处理,发送给下一个Bolt或者是存储到某种介质上,介质可...

2018-12-25 10:23:17 287

原创 hadoop 之 hbase 原理 (hmaster, hregionserver, zookeeper, 读写流程及组件职责)

目录1、体系图 2、写流程 3、flush过程 4、合并过程 5、读过程 6、hmaster职责 7、hregionserver职责 8、client职责 1、体系图2、写流程client向hregionserver发送写请求。 hregionserver将数据写到hlog(write ahead log),为了数据的持久化和恢复。 hregionserve...

2018-12-23 19:29:01 1537 1

原创 搭建三节点的 Hbase 环境及动态添加主从节点

目录试验环境 hadoop-2.6.4 + zookeeper-3.4.5 + hbase-0.99.2 搭建过程 hbase-0.99.2 动态添加主节点、从节点1、试验环境1.1 节点为三个:192.168.2.181   hbase1    (主节点) 192.168.2.182   hbase2    (从节点) 192.168.2.183   hbase3    (...

2018-12-20 11:32:43 2041

原创 K最近邻分类算法原理及实例分析

目录概述 原理 要点 实例1、概述K最近邻(k-Nearest Neighbor,KNN),指导思想是“近朱者赤,近墨者黑”,由你的邻居来推断出你的类别,KNN分类算法是最简单的机器学习算法。2、原理从训练集中找到和新数据最接近的k条记录,然后根据多数类来决定新数据类别,本质上,KNN是使用距离来计算相似度。算法涉及3个主要因素:训练数据集;距离或相似度的计算衡量;k的...

2018-12-14 11:26:48 5148

原创 朴素贝叶斯分类算法原理

目录概述 原理 要点1、概述朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种,贝叶斯分类算法以样本可能属于某类的概率来作为分类依据。贝叶斯分类算法是一大类分类算法的总称。2、原理如果一个事物在一些属性条件发生的情况下,事物属于A的概率大于属于B的概率,则判定事物属于A。朴素贝叶斯分类器  朴素贝叶斯分类器的表示形式:  当特征为为x时,计算所有类别的条件概率,...

2018-12-14 09:23:02 5024

原创 MR中自定义bean作为key,输出某组排序中最大值。

目录需求:MR中自定义bean作为key,输出某组排序中最大值。 方案:重写MR中groupingcomparator方法1.需求:MR中自定义bean作为key,输出某组排序中最大值。   场景:求出多个订单中,金额最大的商品价格。2.方案:重写MR中 groupingcomparator 方法      定义排序:orderBean 类,重写compareto方法,订单相同...

2018-12-13 11:51:52 558 1

原创 关键路径转换分析---漏斗模型

目录需求 方案 总结1.需求         在一条指定的业务流程中,各个步骤的完成人数及相对上一个步骤的百分比。2.方案: 使用漏斗模型         查询每一个步骤的总访问人数 create table dw_route_numbs as  select 'step1' as step,count(distinct remote_addr)  as num...

2018-12-12 15:02:24 774

原创 centos6.4 使用yum 软件 安装mysql 5.6 详细教程

目录yum 安装 mysql 安装,远程登录,设置utf-8编码1. yum 安装centos 中安装yum 软件请参考文章:  https://blog.csdn.net/py_tamir/article/details/809621822.mysql 安装 检查系统是否安装其他版本的MYSQL数据# yum list installed | grep mysql...

2018-12-09 17:46:29 297

原创 解决 Hadoop 中 从节点 不能远程登录 主节点的MySQL数据库.

目录:Host 'shizhan04' is not allowed to connect to this MySQL server问题,及解决方案 Access denied for user 'root'@'localhost' (using password: YES) 问题,及解决方案1.问题: "Host 'shizhan04' is not allowed to conne...

2018-12-09 17:15:58 752

原创 数据迁移工具 sqoop 安装部署及实战

目录概述 工作机制 安装部署 实战1.概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库。2.工作机制       将导入或导出命令翻译成mapreduce程序来实现,在...

2018-12-09 10:38:03 246

原创 工作流调度器 azkaban 安装部署

目录准备工作 安装 azkaban web服务器安装 azkaban executor 安装 配置SSL 配置文件 启动 备注 1.准备工作Azkaban Web服务器  azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器   azkaban-executor-server-2.5.0.tar.gz MySQL目前azkab...

2018-12-08 21:10:39 250

转载 hadoop 之 flume 日志采集框架

目录概述 运行机制 简单结构 复杂结构1、概述       Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可实现。Flume针对特殊场景也具备良好的自定义扩展能力,...

2018-12-06 08:59:15 286

原创 Centos 中 PING 外部链接,出现 ping: unknown host XXXXX 的解决方案

目录问题 方案1. 问题:在终端ping 外部链接时,出现 “ ping: unknown host XXXXX” 问题???2. 方案:步骤一:vi /etc/resolv.conf 添加nameserver 192.168.2.2nameserver 8.8.8.8步骤二: vi /etc/sysconfig/network-scripts/ifcfg...

2018-12-05 22:27:59 524

原创 Hive 中 各种Join 操作及实例

目录:数据 建表 操作正文:1、数据a:+-------+---------+--+| a.id  | a.name  |+-------+---------+--+| 1     | a       || 2     | b       || 3     | c       || 4     | d       || 7     | y       || 8 ...

2018-12-03 22:00:20 527

django-1.8tar.gz

Django 项目是一个python定制框架,它源自一个在线新闻 Web 站点,于 2005 年以开源的形式被释放出来。

2017-10-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除