综合
星空刀客
努力、加油。
展开
-
Rabbitmq 学习(1)python版
rabbitmq 学习(1)Python原创 2016-02-16 14:29:21 · 685 阅读 · 0 评论 -
使用kafka confluent 同步数据库到kafka消息队列中
1. 背景 近期正在整合集团数据,内部有很多数据需要进行同步,同步方式可以选择接口或者是数据库同步,内部系统我们选择使用数据库同步的方式,外部系统选择使用接口的方式进行同步。数据库同步软件也有很多,我们希望同步的数据被多次消费,最好将同步的数据写入到消息队列中。最终选择了使用kafka Confluent, 下面将对 Confluent进行详细的介绍。2. 介绍 Conflue...原创 2019-04-12 10:52:39 · 3038 阅读 · 5 评论 -
HDFS挂载到本地硬盘
工具hadoop-fuse-dfs首先创建目录:mkdir /hdfs然后把目录权限给hdfs chown -R hadoop:hadoop /hdfs/执行命令挂载的命令:hadoop-fuse-dfs hdfs://qlwb103:8020 /hdfs然后查看:已经有内容了原创 2016-11-02 10:41:08 · 4033 阅读 · 0 评论 -
Spark Hive
/** * Created by zxl on 2016/9/29. */import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql._import org.apache.spark.sql.hive.HiveContextobject HiveTest { def main(arg原创 2016-09-29 17:21:24 · 667 阅读 · 0 评论 -
Cloudera NTP 配置
yum install ntpvim/etc/ntp.confserver 0.pool.ntp.orgserver 1.pool.ntp.orgserver 2.pool.ntp.orgsystemctl start ntpd.servicesystemctl enable ntpd.service其他机器:执行nt原创 2016-10-14 17:13:57 · 1356 阅读 · 0 评论 -
Cloudera Manager 正在获取安装锁
哪一个节点被锁就删除哪一个解决办法:进入/tmp 目录,ls -a查看,删除scm_prepare_node.*的文件,以及.scm_prepare_node.lock文件。 rm -rf /tmp/scm_prepare_node.*rm -rf /tmp/.scm_prepare_node.lock原创 2016-10-14 10:35:57 · 4023 阅读 · 1 评论 -
apache Kylin搭建 CDH版本
apache-kylin下载kylin:wget http://apache.fayea.com/kylin/apache-kylin-1.5.4/apache-kylin-1.5.4-cdh5.7-bin.tar.gz解压kylin:tar -zvxf apache-kylin-1.5.4-cdh5.7-bin.tar.gz -C /opt修改配置文件:vim /op原创 2016-09-21 15:29:07 · 3966 阅读 · 1 评论 -
大数据工程师技能图谱
大数据通用处理平台SparkFlinkHadoop分布式存储HDFS资源调度YarnMesos机器学习工具MahoutSpark MlibTensorFlow (Google 系)Amazon Machine LearningDMTK (微软分布式机器学习工具)数据分析/数据仓库(SQL类)PigHivekylinSpark转载 2016-08-01 10:28:46 · 747 阅读 · 0 评论 -
Squid代理安装以及配置
1、什么是squidSquid cache(简称为Squid)是一个流行的自由软件(GNU通用公共许可证)的代理服务器和Web缓存服务器。Squid有广泛的用途,从作为网页服务器的前置cache服务器缓存相关请求来提高Web服务器的速度,到为一组人共享网络资源而缓存万维网,域名系统和其他网络搜索,到通过过滤流量帮助网络安全,到局域网通过代理上网。Squid主要设计用于在Unix一类系统运行。原创 2016-07-18 13:42:38 · 693 阅读 · 0 评论 -
Hbase常用命令
1、启动hbase hbase shell2、查看所有表list3、查看具体表 describe "news"4、扫描全表scan "news"5、获取某一条记录get "news", "166385"6、获原创 2016-07-15 09:52:42 · 335 阅读 · 0 评论 -
Impala
Impala 号称在性能上比Hive高出3~30倍,甚至预言说在将来的某一天可能会超过Hive的使用率而成为Hadoop上最流行的实时计算平台(也许我这里有点曲解Impala专家的意思,但其诱惑的言辞足以令Hadoop迷不禁有蠢蠢欲试的激动)。毕竟Impala也是人写出来的,是否真的如想象中的快,还得靠客观数据来验证。下面就这两个星期对Impala的认识小记一下,供日后翻阅。原创 2016-07-15 09:47:23 · 434 阅读 · 0 评论 -
spark 新闻相识度计算
/** * Created by zxl on 2016/5/5. * 余弦相识度计算 */import java.sql.{Connection, DriverManager, ResultSet}import java.text.SimpleDateFormatimport java.util.Date;import kafka.serializer.StringDec原创 2016-06-02 10:49:58 · 983 阅读 · 0 评论 -
spark 集群配置
1、下载 http://apache.opencas.org/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz2、JAVA环境配置、scala环境3、tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz4、cd spark/bin 5、执行 错误异常java.net.UnknownHostException:原创 2016-06-02 10:45:42 · 362 阅读 · 0 评论 -
Kafka 安装配置
a:简介kafka (官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率。i. 消息的发布(publish)称作producer,消息的订阅(subscribe)称作consumer,中间的存储阵列称作broker。ii. 多个broker协同合作,producer、consumer和broker原创 2016-04-22 15:16:32 · 300 阅读 · 0 评论 -
Docker 学习(1)
1、查看系统内核信息:uname -aDocker 目前只能按照在 64 位平台上,并且要求内核版本不低于 3.10,实际上内核越新越好,过低的内核版本容易造成功能的不稳定2、另外,为了让 Docker 使用 aufs 存储,推荐安装 linux-image-extra 软件包。 sudo apt-get install -y linux-image-extra-$(u原创 2016-03-12 14:55:48 · 319 阅读 · 0 评论 -
rabbitmq 消息持久化
二:任务分发 &消息持久化启用多个接收端的时候如果某一个receive 关闭要保证消息有反馈是否收到send端#-*- coding: UTF-8 -*-import pikacred = pika.PlainCredentials('zxl','pwd') #账号密码params = pika.ConnectionParameters(ho原创 2016-02-18 11:19:51 · 1020 阅读 · 0 评论 -
NGINX 配置Thinkphp
# You may add here your# server {# ...# }# statements for each of your virtual hosts to this file### You should look at the following URL's in order to grasp a solid understanding# of Nginx co转载 2015-12-18 09:43:31 · 516 阅读 · 0 评论