自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

转载 使用Flume将MySQL表数据实时抽取到hadoop

一、为什么要用到Flume        在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使用MapReduce读写数据,而MapReduce是为了批处理场景设计的,目标是大吞吐量,并不太关心低延时问题。就像实验中所做的

2017-07-10 11:34:02 1340

原创 mysql查询优化

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中使用!=或3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: select id from t where num is null 可以在num上设置默认值0,确保表中

2017-06-29 11:20:25 313

转载 使用Flume+Kafka+SparkStreaming进行实时日志分析

每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,

2017-06-23 13:48:57 1217

转载 hadoop常见问题

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。 /etc/security/limits....

2017-06-19 15:23:59 787

转载 kafka->spark->streaming->mysql(scala)实时数据处理示例

开发环境windows7 64、intellij idea 14.1.5、Spark-1.5.2、Scala 2.0.4、java1.7、maven3.05将spark中的assembly包引入即可使用local模式运行相关的scala任务,注意不要使用scala2.11,非要使用的话先用这个版本的scala编译一遍spark哈代码部分pom文件先附上pom

2017-06-09 10:53:38 875

转载 大数据实时处理实战

随着互联网时代的发展,运营商作为内容传送的管道服务商,在数据领域具有巨大的优势,如何将这些数据转化为价值,越来越被运营商所重视。运营商的大数据具有体量大,种类多的特点,如各类话单、信令等,通常一种话单每天的数据量就有上百亿条。随着业务分析需求对数据处理实时性的要求越来越高,也给我们的大数据处理架构带来了巨大的挑战,参照网络上可查的例子,运用到实际处理架构上,经常会因为实时数据流量大,造成系

2017-06-01 13:51:00 1840

转载 实时数据处理简单分析

摘要:实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。今天这篇文章详细介绍了实时计算,流数据处理系统简介与简单分析。编者按:互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。实时计算的今天,业界都没有一个准确的定义,什么叫

2017-06-01 10:32:53 12059

原创 多台服务器mysql数据库数据同步

Mysql多机同步技术研究总结假定有三台Mysql服务器,他们的IP地址分别为:192.168.1.8192.168.1.88192.168.1.188在192.168.1.8的安装目录下找到my.ini文件,在该文件的最后加上:server-id=1log-bin#asyntest1是我用来试验的数据库名称,到时候要换成你的数据库名字binlog-do-d

2017-05-31 17:08:07 2955

转载 MYSQL数据库间同步数据

环境要求:Windows 操作系统需要MySQL 3.23.15以后的版本。假设数据库A为主机,数据库B为从机(A向B提供同步服务,即B中的数据来自A)A机器:IP=10.10.151.166B机器:IP=10.10.151.156下面看单向同步的配置步骤:1         在机器A中建立一个新的数据库,sql语句:[sql] view plain

2017-05-31 15:48:01 490

转载 spark streaming 实时统计mysql

1.sparkStreamingDemo由于这个demo需要spark 和jdbc 的依赖包。在pom.xml文件中如下(关于新建maven 的spark工程请参考idea 构建maven 管理的spark项目)<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/P...

2017-05-27 13:44:18 1954

原创 spark常见问题

如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了

2017-05-25 14:18:03 1803

mysql-connector-java-5.1.38.jar

mysql-jdbc驱动包

2017-05-19

mysql-connector-java-5.1.7.jar

mysql-jdbc驱动包

2017-05-19

mysql-connector-java-5.1.37.jar

mysql-jdbc驱动包

2017-05-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除