![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bigdata
文章平均质量分 83
风之涯角
不能几句话说清楚的,都不是真理
展开
-
关于 mysql 异地同步数据到 hadoop 的一些注意事项
场景:杭州 阿里云的 mysql数据,秒级同步到 深圳 腾讯云 的hadoop,出报表 常规的思路是这样的: 杭州: (1)mysql=》 (2)maxwell / canal 获取 binlog=》 (3)数据打到kafka =》 深圳: =》(4)sparkstreaming / flink / kafka =》 (5)hive / kudu + impala jdbc 或者 hbase +phoenix / es 二级索引 =》report 但是存在一些需要注意的细节: (1)...原创 2021-03-02 12:42:42 · 263 阅读 · 0 评论 -
基于 MaxWell 的 mysql binlog 日志同步实操
mysql biglog 的三种格式: 1)STATMENT模式:基于SQL语句的复制(statement-based replication, SBR),每一条会修改数据的sql语句会记录到binlog中 优点:binlog的日志比较少,减少了磁盘IO,提高性能 缺点:以下会导致master-slave中的数据不一致(如sleep()函数, last_insert_id(),以及 user-defined functions(udf)等会出现问题) 2)基于行的原创 2021-03-01 11:37:15 · 439 阅读 · 0 评论 -
Hive 调优相关总结(持续更新)
1)fetch抓取: Hql中的某些查询可以不使用MR计算,例如select * from table;这种情况下Hive可以简单读取table对应的存储目录下的文件 具体的操作方式:在hive/conf/hive-default.xml文件中,修改hive.fetch.task.conversion(minimal和more)为more,这样全局查找,字段查找,filter查找,limit查找等都不走MR,直接Fetch 相关:hive.fetch.task.conversion 之 minimal原创 2021-02-23 11:03:35 · 159 阅读 · 0 评论 -
SparkSQL自定义数据源读取数据库 类型转换问题
下面这一段是废话,时间紧的兄弟直接跳过: 前几天接触了 SparkSQL,通过自定义数据源可以完成各种数据库的读取和写入。我好像嗅到了数据中台的调调,封装一个扩展性强的小架架把 hbase,mysql,redis各种数据源都整合一下,再用并发多线程,对象池之类的优化一下性能,再招一个3000块的小表哥,多么优秀的开源节流,是不是又可以找老板涨工资了!考验架构能力的时候到了,不想当架构师的程序员不是一个好男人!好了,做梦时间结束,进入正题: 我们知道 hbase 最终是把数据转成了 HFile 文件,HF原创 2020-12-24 10:07:05 · 585 阅读 · 0 评论