大数据
lin502
这个作者很懒,什么都没留下…
展开
-
实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重
http://lxw1234.com/archives/2018/02/901.htm在实时流式计算中,最重要的是在任何情况下,消息不重复、不丢失,即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为例,一方面说明一下如何做到Exactly-once,另一方面说明一下我是如何计算实时去重指标的。1. 关于数据源数据源是文本格式的日志,由Ngin...转载 2018-04-04 23:44:08 · 1199 阅读 · 0 评论 -
HIVE中get_json_object与json_tuple使用处理json格式数据
hive中提供了两种针对json数据格式解析的函数,即get_json_object(…)与json_tuple(…),理论不多说,直接上效果示意图:假设存在如下json数据对象,若使用hive环境可这么设置:set hivevar:msg={"message":"2015/12/08 09:14:4", "client": "10.108.24.253", "server": "passp.转载 2018-05-11 10:21:42 · 13581 阅读 · 0 评论 -
Impala表使用Parquet文件格式 2017年05月23日
准备了一个 427144792 行的 textfile 格式表 t_item:[impale-host:21000] > select count(1) from t_item;Query: select count(1) from t_item +-----------+| count(1) |+-----------+| 427144792 |+-----------+...转载 2018-06-06 10:35:28 · 661 阅读 · 0 评论 -
近来关于openTSDB/HBase的一些杂七杂八的调优
背景过年前,寂寞哥给我三台机器,说搞个新的openTSDB集群。机器硬件是8核16G内存、3个146G磁盘做数据盘。我说这太抠了,寂寞哥说之前的TSDB集群运行了两年,4台同样配置的机器,目前hdfs才用了40%,所以前期先用着这三台机器,不够再加。于是我只好默默地搭好了CDH5、openTSDB(2.1版本,请注意此版本号)、bosun,并在20台左右的机器上部署了scollector用来测试,...转载 2018-06-06 10:53:54 · 5247 阅读 · 2 评论 -
Spark DataFrame写入HBase的常用方式
Spark是目前最流行的分布式计算框架,而HBase则是在HDFS之上的列式分布式存储引擎,基于Spark做离线或者实时计算,数据结果保存在HBase中是目前很流行的做法。例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介,供客户端使用。因此Spark如何向HBase中写数据就成为很重要的一个环节了。本文将会介绍三种写入的方式,其中一种还在期待中,暂且官网即可...代码在spark ...转载 2018-06-15 09:42:00 · 2508 阅读 · 0 评论 -
前端Table数据导出到Excel中
一、实现原理:1. 前端查询列表数据并渲染至table(<table>...</table>)表格2. 表格html代码传输至后台3. 后台把html转成Excel输出流返回前端4. 前端自动调用下载器完成下载注:因为渲染之后的hmtl代码数据量有可能很大,因此要使用POST方式的form表单方式提交。后台转换代码:必要的jar包,maven项目...原创 2019-07-31 15:52:17 · 897 阅读 · 0 评论