自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

java、python、大数据

java、python、大数据

  • 博客(24)
  • 资源 (4)
  • 收藏
  • 关注

原创 mysql查询性能优化

学习《高性能MySql》记录查询性能优化

2019-04-16 12:43:40 185

原创 使用kafka confluent 同步数据库到kafka消息队列中

1. 背景 近期正在整合集团数据,内部有很多数据需要进行同步,同步方式可以选择接口或者是数据库同步,内部系统我们选择使用数据库同步的方式,外部系统选择使用接口的方式进行同步。数据库同步软件也有很多,我们希望同步的数据被多次消费,最好将同步的数据写入到消息队列中。最终选择了使用kafka Confluent, 下面将对 Confluent进行详细的介绍。2. 介绍 Conflue...

2019-04-12 10:52:39 3017 5

原创 HDFS挂载到本地硬盘

工具hadoop-fuse-dfs首先创建目录:mkdir /hdfs然后把目录权限给hdfs chown -R hadoop:hadoop /hdfs/执行命令挂载的命令:hadoop-fuse-dfs hdfs://qlwb103:8020 /hdfs然后查看:已经有内容了

2016-11-02 10:41:08 3998

原创 Cloudera NTP 配置

yum install ntpvim/etc/ntp.confserver 0.pool.ntp.orgserver 1.pool.ntp.orgserver 2.pool.ntp.orgsystemctl start ntpd.servicesystemctl enable ntpd.service其他机器:执行nt

2016-10-14 17:13:57 1349

原创 Cloudera Manager 正在获取安装锁

哪一个节点被锁就删除哪一个解决办法:进入/tmp 目录,ls -a查看,删除scm_prepare_node.*的文件,以及.scm_prepare_node.lock文件。  rm -rf /tmp/scm_prepare_node.*rm -rf  /tmp/.scm_prepare_node.lock

2016-10-14 10:35:57 4017 1

原创 Spark Hive

/** * Created by zxl on 2016/9/29. */import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.sql._import org.apache.spark.sql.hive.HiveContextobject HiveTest { def main(arg

2016-09-29 17:21:24 657

原创 apache Kylin搭建 CDH版本

apache-kylin下载kylin:wget http://apache.fayea.com/kylin/apache-kylin-1.5.4/apache-kylin-1.5.4-cdh5.7-bin.tar.gz解压kylin:tar -zvxf apache-kylin-1.5.4-cdh5.7-bin.tar.gz -C /opt修改配置文件:vim /op

2016-09-21 15:29:07 3959 1

原创 Redis 3.2GEO 地理位置新特性试用

首先下载Redis 3.2wget http://download.redis.io/releases/redis-3.2.3.tar.gztar xzf redis-3.2.3.tar.gzcd redis-3.2.3make启动Rdis:src/redis-server redis.conf  (后面是配置文件)启动操作工具:Reis-cli src/

2016-09-20 16:45:34 2140

转载 大数据工程师技能图谱

大数据通用处理平台SparkFlinkHadoop分布式存储HDFS资源调度YarnMesos机器学习工具MahoutSpark MlibTensorFlow (Google 系)Amazon Machine LearningDMTK (微软分布式机器学习工具)数据分析/数据仓库(SQL类)PigHivekylinSpark

2016-08-01 10:28:46 735

原创 Squid代理安装以及配置

1、什么是squidSquid cache(简称为Squid)是一个流行的自由软件(GNU通用公共许可证)的代理服务器和Web缓存服务器。Squid有广泛的用途,从作为网页服务器的前置cache服务器缓存相关请求来提高Web服务器的速度,到为一组人共享网络资源而缓存万维网,域名系统和其他网络搜索,到通过过滤流量帮助网络安全,到局域网通过代理上网。Squid主要设计用于在Unix一类系统运行。

2016-07-18 13:42:38 683

原创 Hbase常用命令

1、启动hbase hbase shell2、查看所有表list3、查看具体表 describe "news"4、扫描全表scan "news"5、获取某一条记录get "news", "166385"6、获

2016-07-15 09:52:42 328

原创 Impala

Impala 号称在性能上比Hive高出3~30倍,甚至预言说在将来的某一天可能会超过Hive的使用率而成为Hadoop上最流行的实时计算平台(也许我这里有点曲解Impala专家的意思,但其诱惑的言辞足以令Hadoop迷不禁有蠢蠢欲试的激动)。毕竟Impala也是人写出来的,是否真的如想象中的快,还得靠客观数据来验证。下面就这两个星期对Impala的认识小记一下,供日后翻阅。

2016-07-15 09:47:23 425

原创 spark 新闻相识度计算

/** * Created by zxl on 2016/5/5. * 余弦相识度计算 */import java.sql.{Connection, DriverManager, ResultSet}import java.text.SimpleDateFormatimport java.util.Date;import kafka.serializer.StringDec

2016-06-02 10:49:58 975

原创 spark 集群配置

1、下载 http://apache.opencas.org/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz2、JAVA环境配置、scala环境3、tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz4、cd spark/bin 5、执行  错误异常java.net.UnknownHostException:

2016-06-02 10:45:42 355

原创 scala Hbase

importorg.apache.spark._import org.apache.spark.rdd.RDDimport org.apache.hadoop.hbase.client.HBaseAdminimport org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}import org

2016-04-27 17:44:24 1332

原创 Kafka 安装配置

a:简介kafka (官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统,具有高性能和高吞吐率。i. 消息的发布(publish)称作producer,消息的订阅(subscribe)称作consumer,中间的存储阵列称作broker。ii. 多个broker协同合作,producer、consumer和broker

2016-04-22 15:16:32 295

原创 Docker 学习(1)

1、查看系统内核信息:uname -aDocker 目前只能按照在 64 位平台上,并且要求内核版本不低于 3.10,实际上内核越新越好,过低的内核版本容易造成功能的不稳定2、另外,为了让 Docker 使用 aufs 存储,推荐安装 linux-image-extra 软件包。 sudo apt-get install -y linux-image-extra-$(u

2016-03-12 14:55:48 303

原创 rabbitmq 消息持久化

二:任务分发 &消息持久化启用多个接收端的时候如果某一个receive 关闭要保证消息有反馈是否收到send端#-*- coding: UTF-8 -*-import pikacred = pika.PlainCredentials('zxl','pwd') #账号密码params = pika.ConnectionParameters(ho

2016-02-18 11:19:51 993

原创 Rabbitmq 学习(1)python版

rabbitmq 学习(1)Python

2016-02-16 14:29:21 676

原创 Python spynner 解决中文不显示

spynner Spynner是一个可编程Web浏览器Python模块。支持AJAX。Spynner是一个有状态,可编程Web浏览器Python模块。它基于 PyQT 和 WebKit构建。支持 Javascript, AJAX,和所有其它WebKit能够处理的技术(Flash, SVG, ...)。Spynner利用 JQuery。使用Spynner你可以模拟一个Web浏

2015-12-21 16:52:33 1032

原创 ECMAScript 6入门

ECMAScript 6入门ECMAScript 6(以下简称ES6)是JavaScript语言的下一代标准,已经在2015年6月正式发布了。它的目标,是使得JavaScript语言可以用来编写复杂的大型应用程序,成为企业级开发语言。学习传送门:http://es6.ruanyifeng.com/#README作者:阮一峰

2015-12-21 13:40:41 638

转载 NGINX 配置Thinkphp

# You may add here your# server {# ...# }# statements for each of your virtual hosts to this file### You should look at the following URL's in order to grasp a solid understanding# of Nginx co

2015-12-18 09:43:31 510

原创 iframe 无刷新上传图片以及返回值

无刷新上传

2015-12-18 09:24:41 395

原创 PHP IMG2TXT 图片转成文字

PHP将图片以文字展示

2015-12-18 09:22:15 2811

流畅的Python

本书由奋战在Python开发一线近20年的Luciano Ramalho执笔,Victor Stinner、Alex Martelli等Python大咖担纲技术审稿人,从语言设计层面剖 析编程细节,兼顾Python 3和Python 2,告诉你Python中不亲自动手实践就无法理解的语言陷阱成因和解决之道,教你写出风格地道的Python代码。 ● Python数据模型:理解为什么特殊方法是对象行为一致的关键。   ● 数据结构:充分利用内置类型,理解Unicode文本和字节二象性。 ● 把函数视作对象:把Python函数视作一等对象,并了解这一点对流行的设计模式的影响。 ● 面向对象习惯用法:通过构建类学习引用、可变性、接口、运算符重载和多重继承。   ● 控制流程:学习使用上下文管理器、生成器、协程,以及通过concurrent.futures和asyncio包实现的并发。 ● 元编程:理解特性、描述符、类装饰器和元类的工作原理。

2018-11-26

省市区地址编码 库

省市区地址编码 库 邮政编码 这是一个表格,里面包含了所有的县市区

2015-10-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除