使用Flume将MySQL表数据实时抽取到hadoop

一、为什么要用到Flume         在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS,然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务,但缺点同样明显,那就是实时性。Sqoop使用MapReduce读写数...

2017-07-10 11:34:02

阅读数 634

评论数 0

mysql查询优化

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。  2.应尽量避免在 where 子句中使用!=或 3.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:  sele...

2017-06-29 11:20:25

阅读数 161

评论数 0

使用Flume+Kafka+SparkStreaming进行实时日志分析

每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码 1. 整体架构 思考一下,正常情况下我们会如何收集并分析日志呢? 首先,业务日志会通过Nginx...

2017-06-23 13:48:57

阅读数 361

评论数 0

hadoop常见问题

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out  Answer:  程序 里面需要打开多个 文件 ,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太...

2017-06-19 15:23:59

阅读数 281

评论数 0

kafka->spark->streaming->mysql(scala)实时数据处理示例

开发环境 windows7 64、intellij idea 14.1.5、Spark-1.5.2、Scala 2.0.4、java1.7、maven3.05 将spark中的assembly包引入即可使用local模式运行相关的scala任务,注意不要使用scala2.11,非要使用...

2017-06-09 10:53:38

阅读数 664

评论数 0

大数据实时处理实战

随着互联网时代的发展,运营商作为内容传送的管道服务商,在数据领域具有巨大的优势,如何将这些数据转化为价值,越来越被运营商所重视。 运营商的大数据具有体量大,种类多的特点,如各类话单、信令等,通常一种话单每天的数据量就有上百亿条。随着业务分析需求对数据处理实时性的要求越来越高,也给我们的大数据处理...

2017-06-01 13:51:00

阅读数 1187

评论数 0

实时数据处理简单分析

摘要:实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。今天这篇文章详细介绍了实时计算,流数据处理系统简介与简单分析。 编者按:互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的需求(如计算结果准确)以外,实时计算最...

2017-06-01 10:32:53

阅读数 5868

评论数 0

多台服务器mysql数据库数据同步

Mysql多机同步技术研究总结 假定有三台Mysql服务器,他们的IP地址分别为: 192.168.1.8 192.168.1.88 192.168.1.188 在192.168.1.8的安装目录下找到my.ini文件,在该文件的最后加上: server-id=1 log-bin...

2017-05-31 17:08:07

阅读数 1554

评论数 0

MYSQL数据库间同步数据

环境要求: Windows 操作系统 需要MySQL 3.23.15以后的版本。 假设数据库A为主机,数据库B为从机(A向B提供同步服务,即B中的数据来自A) A机器:IP=10.10.151.166 B机器:IP=10.10.151.156 下面看单向同步的配置步骤: 1     ...

2017-05-31 15:48:01

阅读数 375

评论数 0

spark streaming 实时统计mysql

1.sparkStreamingDemo 由于这个demo需要spark 和jdbc 的依赖包。在pom.xml文件中如下(关于新建maven 的spark工程请参考idea 构建maven 管理的spark项目) project xmlns="http://maven.apa...

2017-05-27 13:44:18

阅读数 1612

评论数 0

spark常见问题

如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了

2017-05-25 14:18:03

阅读数 762

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭