- 博客(454)
- 资源 (31)
- 收藏
- 关注
原创 几种任务调度的 Java 实现方法与比较
前言任务调度是指基于给定时间点,给定时间间隔或者给定执行次数自动执行任务。本文由浅入深介绍四种任务调度的 Java 实现:Timer ScheduledExecutor 开源工具包 Quartz 开源工具包 JCronTab此外,为结合实现复杂的任务调度,本文还将介绍 Calendar 的一些使用方法。Timer相信大家都已经非常熟悉 java.util.Timer 了,它...
2018-10-10 17:32:56 361
原创 ORACLE MERGE INTO语句,unable to get a stable set of rows in the source tables报错解决
ORACLE数据库,MERGE INTO语句,经常会出现 ORA-30926: unable to get a stable set of rows in the source tables 这个错误,如下图所示: 经检查,这个错误是由于数据来源表(即语句中,from关键字后面的表)存在数据重复造成的。在实际项目研发中,我们一般不能随便改动数据表的记录,那么如何避...
2018-10-09 10:01:47 1178
原创 搭建MySQL高可用负载均衡集群
1、简介 使用MySQL时随着时间的增长,用户量以及数据量的逐渐增加,访问量更是剧增,最终将会使MySQL达到某个瓶颈,那么MySQL的性能将会大大降低。这一结果也不利于软件的推广。 那么如何跨过这个瓶颈,提高MySQL的并发量呢?方法有很多,分布式数据库、读写分离、高可用负载均衡、增加缓存服务器等等。之前的文章里已经介绍了读写分离的方案了,接下来我将讲解MySQL高可用负载均衡这一方...
2018-08-31 16:21:29 8990 1
原创 MySQL高可用架构之MHA
简介:MHA(Master High Availability)目前在MySQL高可用方面是一个相对成熟的解决方案,它由日本DeNA公司youshimaton(现就职于Facebook公司)开发,是一套优秀的作为MySQL高可用性环境下故障切换和主从提升的高可用软件。在MySQL故障切换过程中,MHA能做到在0~30秒之内自动完成数据库的故障切换操作,并且在进行故障切换的过程中,MHA能在最大...
2018-08-31 16:15:26 549
原创 Heartbeat+DRBD+MySQL高可用方案
1.方案简介本方案采用Heartbeat双机热备软件来保证数据库的高稳定性和连续性,数据的一致性由DRBD这个工具来保证。默认情况下只有一台mysql在工作,当主mysql服务器出现问题后,系统将自动切换到备机上继续提供服务,当主数据库修复完毕,又将服务切回继续由主mysql提供服务。2.方案优缺点优点:安全性高、稳定性高、可用性高,出现故障自动切换。缺点:只有一台服务器提供服务,...
2018-08-31 16:14:32 370
原创 MySQL Cluster搭建与测试
MySQL Cluster是一个基于NDB Cluster存储引擎的完整的分布式数据库系统。不仅仅具有高可用性,而且可以自动切分数据,冗余数据等高级功能。和Oracle Real Cluster Application不太一样的是,MySQL Cluster 是一个Share Nothing的架构,各个MySQL Server之间并不共享任何数据,高度可扩展以及高度可用方面的突出表现是其最大的特色...
2018-08-31 16:13:12 2783
原创 MySQL 高可用架构之MMM
简介MMM(Master-Master replication manager for MySQL)是一套支持双主故障切换和双主日常管理的脚本程序。MMM使用Perl语言开发,主要用来监控和管理MySQL Master-Master(双主)复制,虽然叫做双主复制,但是业务上同一时刻只允许对一个主进行写入,另一台备选主上提供部分读服务,以加速在主主切换时刻备选主的预热,可以说MMM这套脚本程序一...
2018-08-31 16:11:19 199
原创 java API 访问带有Kerberos认证的HBase时window服务器的配置
首先第一步,是确定的代码运行在window服务器还是linux服务器下, 如果是window服务器下,首先要检测window服务器是否可以连接的通 hadoop平台的zk (2181端口) (telnet xxx.xxx.xxx.xxx 2181)确定连接无误的情况下,进行连接hbase服务器的验证操作(60020端口) (telnet xxx.xxx.xxx.xxx 60020)两者都通的话。下...
2018-08-30 18:04:55 522
原创 更换红旗Linux: Asianux的yum源为网易源
测试环境:Linux系统版本Asianux4_x64:Linux localhost.localdomain 2.6.32-279.2.1.el6.x86_64 #1 SMP Tue Aug 14 11:42:24 CST 2012 x86_64 x86_64 x86_64 GNU/Linux本质上Asianux4_x64就是基于Redhat6企业版的。 出现问题:安装完系统之后...
2018-08-22 16:38:55 2027
原创 hive增加Update、Delete支持
一、配置hive-site.xmlCDH版本先进入Hive配置页 选择高级,找到hive-site.xml 的 Hive 客户端高级配置代码段配置项 点击+号,增加如下配置项 hive.support.concurrency = true hive.enforce.bucketing = true hive.exec.dynamic.partition.mode =...
2018-08-20 11:48:47 4263
原创 CentOS命令修改系统时间同步
使用CentOS,遇到本地时间对不上,直接敲命令:date -s "2017-10-21 15:15:15"是立即生效了,但是重启后,系统时间还是原来的。修改了其一是没有办法奏效,必须两者都更改。1.date //查看本地2.hwclock --show //查看硬件的时间3.如果硬件的时间是...
2018-08-15 17:14:52 5968
转载 linux实现ssh免密码登录
验证ssh远程登录,未作免密处理的两台机器,登录时,是需要输入密码的 本地系统执行 ssh-keygen -t rsa 命令,生成密钥文件 在相应的目录下查看生成的密钥文件,其中:id_rsa为私钥文件,id_rsa.pub为公钥文件 本地机器执行命令如:ssh-copy-id -i ~/.ssh/id_rsa.pub dss@10.164.19...
2018-08-15 17:12:42 960
原创 HBase系列:利用BulkLoad快速导入海量数据及集群间数据同步
Region的大小单个region最大大小官方推荐5~10GB,这是三备份前的数据大小,通过hbase.hregion.max.filesize配置,当超过这个值后region会split,估计好数据量并合理的划分region会减少不必要的性能损失。甚至设置足够大的值,日常监控中发现过大后手工做split。Region 大小Region的大小是一个棘手的问题,需要考量如下几个因素。...
2018-08-09 15:41:46 3153
原创 Hbase通过BulkLoad的方式快速导入海量数据
HBase数据在HDFS下是如何存储的?HBase中每张Table在根目录(/HBase)下用一个文件夹存储,Table名为文件夹名,在Table文件夹下每个Region同样用一个文件夹存储,每个Region文件夹下的每个列族也用文件夹存储,而每个列族下存储的就是一些HFile文件,HFile就是HBase数据在HFDS下存储格式,其整体目录结构如下:/hbase/<tablenam...
2018-08-09 15:40:07 1051 1
原创 Flink集群部署详细步骤
1.下载Flink压缩包下载地址:http://flink.apache.org/downloads.html。我集群环境是hadoop2.6,Scala2.11版本的,所以下载的是:flink-1.3.1-bin-hadoop26-scala_2.11.tgz。2.解压上传至五个节点的相同目录,执行如下命令解压: tar xzf flink-1.3.1-bin-ha...
2018-07-26 11:25:59 19377 4
转载 Intellij IDEA 14.1.4 Scala开发环境搭建
主要内容Intellij IDEA开发环境简介 Intellij IDEA Scala开发环境搭建 Intellij IDEA常见问题及解决方案 Intellij IDEA常用快捷键1. Intellij IDEA开发环境简介具体介绍请参见:http://baike.baidu.com/link?url=SBY93H3SPkmcmIOmZ8H60O1k4iVLgOmdqoKdGp9...
2018-07-24 10:20:38 220
转载 mapreduce,自定义排序,分区,分组实现按照年份升序排序,温度降序排序
自定义类: package myhadoop; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparable; pu...
2018-07-17 11:57:11 835
转载 hbase基于solr配置二级索引
一.概述 Hbase适用于大表的存储,通过单一的RowKey查询虽然能快速查询,但是对于复杂查询,尤其分页、查询总数等,实现方案浪费计算资源,所以可以针对hbase数据创建二级索引(Hbase Secondary Indexing),供复杂查询使用。 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语...
2018-07-17 09:37:37 420
原创 数据分析案例之电影推荐
前言通过案例来学习数据分析的思路和练习相应分析工具,往往最有效的。本文用julia来进行全流程的探索和分析,以期达到既掌握分析思路,又练习了这一新兴的数据科学利器。同时,个性化推荐是个太大的topic,涉及的理论方法和实践非常多,本文有些地方会详细展开,有些则一笔带过。如无特殊说明,本文中所使用的code均为julia代码,IDE环境为JuliaPro.问题阐述个性化推荐是当今网络世界上普遍存在的...
2018-07-13 10:12:28 4544
转载 shell和javaAPI两种方式创建hbase表并预分区
在hbase里面,如果我们建表不预分区,那么一个表的数据都会被一个region处理,如果数据过多就会执行region的split,如果数据量很大这样会很费性能,所以最好我们先根据业务的数据量在建表的时候就能指定region个数并且进行预先分区,下面说说两种创建表并且建立预分区的方法。1.shell createTable并预分区:hbase(main):002:0> create 'spli...
2018-07-12 17:37:53 1010
转载 Waterdrop帮你快速玩转Spark数据处理
Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。一个Spark Streaming读取Kafka的案例以一个线上案例为例,介绍如何使用Spark Streaming统计Nginx后端日志中每个域名下每个...
2018-07-12 09:53:22 1277
原创 Java通过ip获取地址
public String getAddressByIP(){ try { String strIP = "0.0.0.0"; URL url = new URL( "http://ip.qq.com/cgi-bin/searchip?searchip1=" + strIP); URLConnection conn = url.openConnection(); ...
2018-02-26 19:18:09 488
原创 Spring+SpringMVC+hibernate整合开发
前言: 最近没什么事做,搭个框架写成博客记录下来,拉通一下之前所学知识. 话不多说,我们直接步入正题。 准备工作: 1/安装并配置java运行环境 2/数据库的安装配置(Mysql) 3/安装并配置服务器(Tomcat) 4/Maven 5/ IntelliJIDEA的安装配置(本人使用的
2018-02-05 18:06:43 1294 2
原创 How To Install ElasticSearch,Logstash and Kibana(ELK Stack)on Ubuntu 14.04
PrerequisitesTo complete this tutorial, you will require root access to an Ubuntu 14.04 VPS. Instructions to set that up can be found here (steps 3 and 4): Initial Server Setup with Ubuntu 14.04
2018-02-03 18:02:17 491
原创 How To Install ElasticSearch,Logstash and Kibana(ELK Stack)on CentOS 7
PrerequisitesTo complete this tutorial, you will require root access to an CentOS 7 VPS. Instructions to set that up can be found here (steps 3 and 4): Initial Server Setup with CentOS 7.If
2018-02-03 18:00:32 717
原创 ELK日志系统:Elasticsearch + Logstash + Kibana 搭建教程
环境:OS X 10.10.5 + JDK 1.8步骤:一、下载ELK的三大组件Elasticsearch下载地址: https://www.elastic.co/downloads/elasticsearch (目前最新版本:2.1.1)Logstash下载地址: https://www.elastic.co/downloads/logstash (目前最新版本:
2018-02-02 14:21:36 6160 1
转载 PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝。以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理。一、什么是pagerankPageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRa
2018-01-20 19:25:32 416
原创 spark RDD
RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S
2017-12-26 10:56:44 1048
原创 spark on yarn 配置
系统:centos7软件: hadoop-2.7.2.tar.gz,请勿选择src版本,否则需要自行编译 jdk-7u79-linux-x64.tar.gz scala-2.10.3.tgz spark-1.6.1-bin-hadoop2.6.tgz,选择hadooppre-built版本,否则需要安装后编译 zookeeper-3.3.6.tar.gz2、详细配置流
2017-12-25 16:25:43 412
原创 spark笔记spark优化
基本概念(Basic Concepts)RDD - resillient distributed dataset 弹性分布式数据集Operation - 作用于RDD的各种操作分为transformation和actionJob - 作业,一个JOB包含多个RDD及作用于相应RDD上的各种operationStage - 一个作业分为多个阶段Partition - 数据分区, ...
2017-12-25 16:10:05 1929
原创 Sqoop导入导出的几个例子
导入例一:从DBMS到HDFS1.node4下启动mysqlservice mysqld startmysql -u root -p输入密码:123 2.node4下创建test数据库create database test;创建psn表 3.node2中创建sqoop_test,编辑sqoop1import --connect jdbc...
2017-12-21 14:25:15 7519
原创 centos 操作
增加用户权限:1. 切换到root>su root2. 编辑 [/etc/sudoers]neworigin ALL=(ALL) NOPASSWD: ALL 静态ip: 1. 修改网卡[/etc/udev/rules.d/70-persistent-net.rules] 2.
2017-12-15 18:04:59 239
原创 Scala 详解 含Java中的正则匹配 eclipse集成scala插件
JAVA语言脚本化,面向函数,直奔主题。查看帮助:(:help)查看历史:(:history)用var和val定义变量val:相当于java中的final。var:其值可变。if (x>0) 1 =====> if (x>0) 1 else () Unit === Void【《
2017-12-15 11:27:41 464
原创 Flink架构、原理与部署测试
Setup: Download and Start FlinkFlink runs on Linux, Mac OS X, and Windows. To be able to run Flink, the only requirement is to have a working Java 7.x (or higher) installation. Windows users, plea
2017-12-14 15:18:12 2375
原创 Redis 课件
Redis 简介Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis 与其他 key - value 缓存产品有以下三个特点:l Redis支持数据的持久化,可以将内存中的数据保持在磁盘中,重启的时候可以再次加载进行使用。l Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结
2017-12-14 11:55:30 1348
原创 Storm的并行度详解 Strom Topology执行分析:worker数,Bolt实例数,executor数,task数
Storm的并行度详解Storm的并行度是非常重要的,通过提高并行度可以提高storm程序的计算能力。那strom是如何提高并行度的呢?Strom程序的执行是由多个supervisor共同执行的。supervisor运行的是topology中的spout/bolt tasktask 是storm中进行计算的最小的运行单位,表示是spout或者bolt的运行实例。程序执行的最大...
2017-12-13 21:07:01 9330 4
原创 mahout 详解
前言用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景进行算法配置和调优。本文将深入算法API去解释Mahout推荐算法底层的一些事。目录Maho
2017-12-13 21:00:42 21446 1
原创 Storm: DRPC简介
Storm里面引入DRPC主要是利用storm的实时计算能力来并行化CPU intensive的计算。DRPC的storm topology以函数的参数流作为输入,而把这些函数调用的返回值作为topology的输出流。DRPC其实不能算是storm本身的一个特性, 它是通过组合storm的原语spout,bolt, topology而成的一种模式(pattern)。本来应该把DRPC单独打
2017-12-13 17:49:52 372
原创 storm 课件
1 并行度一、说明Ø Topology都是在从节点(supervisor)运行的Ø Supervisor里面运行的是spout和boltØ Task是storm中进行计算的最小单元,task是spout或bolt的一个实例Ø Task是在进程里运行的,将在supervisor中运行的进程叫做worker,在supervisor中可以运行多个workerØ
2017-12-13 09:20:49 603
原创 Storm Trident API 使用详解
一、概述 Storm Trident中的核心数据模型就是“Stream”,也就是说,Storm Trident处理的是Stream,但是实际上Stream是被成批处理的,Stream被切分成一个个的Batch分布到集群中,所有应用在Stream上的函数最终会应用到每个节点的Batch中,实现并行计算,具体如下图所示: 在Trident中有五种操作类型:
2017-12-12 14:44:13 3865
hadoop-eclipse-plugin
2017-10-23
hadoop_dll_winutil_2.7.1.zip
2017-10-20
机器学习实战
2017-10-11
python基础教程
2017-10-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人