![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
linux
11宁静致远
既然选择了远方,便只顾风雨兼程
展开
-
Shell文件加解密
shell脚本文件加解密以及使用原创 2022-09-27 16:33:20 · 5138 阅读 · 2 评论 -
Kafka的配置信息
Kafka配置信息1、 Broker配置信息属性默认值描述broker.id 必填参数,broker的唯一标识log.dirs/tmp/kafka-logsKafka数据存放的目录。可以指定多个目录,中间用逗号分隔,当新partition被创建的时会被存放到当前存放partition最少的目录。port9092BrokerServer接受客户端连接的端口号zookeeper.connectnull...原创 2018-07-14 10:46:08 · 1413 阅读 · 0 评论 -
Kafka安装部署以及常见命令的使用
前面介绍了kafka的基本原理,下面开始搭建kafka集群1.1 环境准备1.1.1 集群规划hadoop102 hadoop103 hadoop104 zk zk zk kafka ...原创 2018-07-14 10:39:05 · 762 阅读 · 0 评论 -
Kafka学习笔记
1.1 Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2)Kafka最初是由LinkedIn公司开发,并于 2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、...原创 2018-07-14 10:08:54 · 200 阅读 · 1 评论 -
Mapreduce运行任务出现Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads()
1、最近运行MapReduce任务一直出现下面这个问题,找人帮忙看,最后终于发现问题的点了,原来是自己代码有点问题,一个方法名写错了,导致这个问题困扰了自己很久,下面我就将问题的错误贴出来,错误如下:packageJobJar: [./map.py, /tmp/hadoop-unjar6994337348538798719/] [] /tmp/streamjob533264488913751022...原创 2018-07-05 15:27:20 · 11676 阅读 · 0 评论 -
IntelliJ IDEA远程调试python
最近开始学习python版本的map reduce,需要编写一些python程序在自己的虚拟机上,在虚拟机上调试比较麻烦,于是自己上网搜素了一下资料,配置好了,按照如下方式配置就可以了:1、首先使用IntelliJ IDEA创建一个空项目。空项目创建完毕后会弹出创建Module的窗口,暂时将其关闭,我们先进行系统设置后再向项目中添加模块。在菜单中点击Tools -> Development ...原创 2018-07-03 21:37:09 · 5068 阅读 · 0 评论 -
TF-IDF原理及使用
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是...原创 2018-07-09 00:22:57 · 4286 阅读 · 0 评论 -
安装Hive时出现无法访问数据库错误
重新安装了一下hive,在连接远程的mysql数据库时,出现无法连接远程数据库,错误如下:于是上网百度了一下出现这种错误原因一般是hive-site.xml配置文件中,数据库的配置,用户名或密码输入不正确,还有就是远程访问mysql数据库时,没有给数据库授权,经过排查,hive-site.xml配置文件没有错,于是定位到是数据库授权的问题,进入数据库执行了一下几句授权命令:1、授权设置用户root...原创 2018-07-08 01:17:54 · 3168 阅读 · 0 评论 -
Hive入门学习笔记
Hive初识:Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来...原创 2018-03-27 23:45:44 · 232 阅读 · 0 评论 -
HBase基本存储原理
HBase基本存储原理:HMasterHMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行,HMaster在功能上主要负责Table和Region的管理工作:1.管理用户对Table的增、删、改、查操作2.管理HRegionServer的负载均衡,调整Region分布3.在Region Split...原创 2018-03-27 23:37:54 · 3444 阅读 · 0 评论 -
Hadoop退役旧的数据节点(仅供参考)
当然有新增数据节点就有退役数据节点,在公司业务不是很繁忙,或是过了节假期间不需要那么多服务器,同时也是为了开源节流,需要将原有新增的一些数据节点去掉,就需要将老节点退役退役旧节点步骤如下:1)在namenode的/opt/module/hadoop-2.7.2/etc/hadoop目录下创建dfs.hosts.exclude文件[zhang@hadoop102 hadoop]$ pwd/opt/m...原创 2018-04-02 22:14:03 · 1435 阅读 · 1 评论 -
Hadoop服役新的数据节点(仅供参考)
最近自己在学习大数据领域,了解了不少知识,在自己现有的集群环境中模拟了如何在现有的集群上增加新的节点。这种场景在我们现实生活中也很常见,随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1)环境准备 (1)克隆一台虚拟机 (2)修改ip地址和主机名称 (3)修改xcall和xsync文件,增加新`增节点的同步s...原创 2018-04-02 22:02:56 · 923 阅读 · 0 评论 -
Hadoop完全分布式安装教程
最近开始学习大数据课程,便开始自己安装搭建完全分布式,下面是自己一步一步的安装方式,期间会遇到各种问题,但还是自己查找资料解决了:1.在安装hadoop2.0之前,需要准备好以下软件(如下图1)图1: 然后将这两个软件共享到centos上(如下图2,图3所示)在vm这上面有个虚拟机,点击虚拟机后有个硬件和选项,点选项,下面有个共享文件夹图2: 图3: 然后为了有个集群的概念,我们把一台linux机...原创 2018-03-24 17:14:01 · 9203 阅读 · 0 评论 -
Centos6.5安装mysql过程步骤
最近开始学习在hadoop集群中搭建hive,发现还需要使用mysql,于是自己便在linux上安装mysql,步骤过程如下:1.检测系统是否已经安装过mysql或其依赖,若已装过要先将其删除,否则第4步使用yum安装时会报错:[root@hadoop101 ~]# rpm -qa|grep mysqlmysql-libs-5.1.73-7.el6.x86_64[root@hadoop101 ~]...原创 2018-03-22 22:50:24 · 163 阅读 · 0 评论 -
弹出界面eth0: 错误:没有找到合适的设备:没有找到可用于链接’System eth0’的设备
转载地址:http://blog.csdn.net/apollon_krj/article/details/56839291问题描述:在虚拟机中该IP为静态IP,service network restart时,出现了“Bringing up interface eth0: Device eth0 does not seem to be present, delaying initializati...转载 2018-03-11 22:04:11 · 8746 阅读 · 3 评论