空着这扇窗-CSDN博客

转载使用Flume将MySQL表数据实时抽取到hadoop

一、为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时，我使用Sqoop抽取从MySQL数据库增量抽取数据到HDFS，然后用HAWQ的外部表进行访问。这种方式只需要很少量的配置即可完成数据抽取任务，但缺点同样明显，那就是实时性。Sqoop使用MapReduce读写数据，而MapReduce是为了批处理场景设计的，目标是大吞吐量，并不太关心低延时问题。就像实验中所做的

2017-07-10 11:34:02 1340

原创 mysql查询优化

1.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中使用!=或3.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如： select id from t where num is null 可以在num上设置默认值0，确保表中

2017-06-29 11:20:25 313

转载使用Flume+Kafka+SparkStreaming进行实时日志分析

每个公司想要进行数据分析或数据挖掘，收集日志、ETL都是第一步的，今天就讲一下如何实时地（准实时，每分钟分析一次）收集日志，处理日志，把处理后的记录存入Hive中，并附上完整实战代码1. 整体架构思考一下，正常情况下我们会如何收集并分析日志呢？首先，业务日志会通过Nginx（或者其他方式，我们是使用Nginx写入日志）每分钟写入到磁盘中，现在我们想要使用Spark分析日志，

2017-06-23 13:48:57 1217

转载 hadoop常见问题

1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。修改办法：修改2个文件。 /etc/security/limits....

2017-06-19 15:23:59 787

转载 kafka->spark->streaming->mysql（scala）实时数据处理示例

开发环境windows7 64、intellij idea 14.1.5、Spark-1.5.2、Scala 2.0.4、java1.7、maven3.05将spark中的assembly包引入即可使用local模式运行相关的scala任务,注意不要使用scala2.11，非要使用的话先用这个版本的scala编译一遍spark哈代码部分pom文件先附上pom

2017-06-09 10:53:38 875

转载大数据实时处理实战

随着互联网时代的发展，运营商作为内容传送的管道服务商，在数据领域具有巨大的优势，如何将这些数据转化为价值，越来越被运营商所重视。运营商的大数据具有体量大，种类多的特点，如各类话单、信令等，通常一种话单每天的数据量就有上百亿条。随着业务分析需求对数据处理实时性的要求越来越高，也给我们的大数据处理架构带来了巨大的挑战，参照网络上可查的例子，运用到实际处理架构上，经常会因为实时数据流量大，造成系

2017-06-01 13:51:00 1840

转载实时数据处理简单分析

摘要：实时计算一般都是针对海量数据进行的，一般要求为秒级。实时计算主要分为两块:数据的实时入库、数据的实时计算。今天这篇文章详细介绍了实时计算，流数据处理系统简介与简单分析。编者按：互联网领域的实时计算一般都是针对海量数据进行的，除了像非实时计算的需求（如计算结果准确）以外，实时计算最重要的一个需求是能够实时响应计算结果，一般要求为秒级。实时计算的今天，业界都没有一个准确的定义，什么叫

2017-06-01 10:32:53 12059

原创多台服务器mysql数据库数据同步

Mysql多机同步技术研究总结假定有三台Mysql服务器，他们的IP地址分别为：192.168.1.8192.168.1.88192.168.1.188在192.168.1.8的安装目录下找到my.ini文件，在该文件的最后加上：server-id=1log-bin#asyntest1是我用来试验的数据库名称，到时候要换成你的数据库名字binlog-do-d

2017-05-31 17:08:07 2955

转载 MYSQL数据库间同步数据

环境要求：Windows 操作系统需要MySQL 3.23.15以后的版本。假设数据库A为主机，数据库B为从机（A向B提供同步服务，即B中的数据来自A）A机器：IP=10.10.151.166B机器：IP=10.10.151.156下面看单向同步的配置步骤：1 在机器A中建立一个新的数据库，sql语句：[sql] view plain

2017-05-31 15:48:01 490

转载 spark streaming 实时统计mysql

1.sparkStreamingDemo由于这个demo需要spark 和jdbc 的依赖包。在pom.xml文件中如下（关于新建maven 的spark工程请参考idea 构建maven 管理的spark项目）<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/P...

2017-05-27 13:44:18 1954

原创 spark常见问题

如果Driver写好了代码，eclipse或者程序上传后，没有开始处理数据，或者快速结束任务，也没有在控制台中打印错误，那么请进入spark的web页面，查看一下你的任务，找到每个分区日志的stderr，查看是否有错误，一般情况下一旦驱动提交了，报错的情况只能在任务日志里面查看是否有错误情况了

2017-05-25 14:18:03 1803

mysql-connector-java-5.1.38.jar

mysql-jdbc驱动包

2017-05-19

mysql-connector-java-5.1.7.jar

mysql-jdbc驱动包

2017-05-19

mysql-connector-java-5.1.37.jar

mysql-jdbc驱动包

2017-05-19

sqoop将mysql表数据导入hive报错

2017-05-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人