大数据
大数据相关实践
一只小鱼儿
数据挖掘从业人员
展开
-
Flink实践小结
这篇文章总结实时推荐系统中使用Flink流式计算的一些实践经验。数据源选择Kafka数据流,经过Flink SQL和自定义函数处理得到各种时间口径下的数据,作为特征传到模型,得到预测结果后向用户实时推送。其中涉及到的一些比较关键的点:a. Flink时间戳概念很重要,了解event time,processing time,watermark,窗口处理的相关知识对Flink如何处理数据会有更清晰的认识,可以参考一下极客时间《Flink核心技术与实践》相关章节。b. Flink目前支持利用Ja原创 2021-04-24 23:23:33 · 704 阅读 · 0 评论 -
Hive transformer分布式预测+写入Redis
Hive的transformer可以比较方便的自定义一些操作,可以利用这个方法将计算结果直接写入Redis。Hive脚本:#!/bin/bash. /etc/profilefield='user_info'base_path=xxxxxxxxxxxxtable_path=xxxxxxxxxxxxecho `date`": start loading data into redis."sql_cmd="SET hive.hadoop.supports.splittable.com原创 2021-04-24 20:05:55 · 466 阅读 · 0 评论 -
Hive中优化经验小结
常用优化手段•避免内存溢出将条目少的表/子查询放在 Join的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出的几率。•解决数据倾斜问题,多发生于数据在节点上分布不均匀,join时左边的表key分布比较集中(空值较多),count(distinct)字段存在大量值为NULL或空的记录等场景1. 参数控制hive.group..原创 2021-01-16 19:11:27 · 395 阅读 · 0 评论 -
Shell+Python/Java+Hive 日志数据切割入库实践经验总结
这篇文章对前不久做的一个数据切割的小项目做一个总结,会对其中涉及到的一些需要注意的事项进行补充说明。【出于隐私保护需要,文章只给出数据切割的通用流程参考】。背景:在日常的生产环境中,机器会源源不断产生日志数据,日志内容通常包括【日志路径】,【日志名】,【记录时间】,【字段键值对】等,需要对这部分数据进行整理和提炼,但是在这个过程中,通常会面临以下问题:1.在业务涉及到的场景比较多的情况下,日志类型也随之会很多,字段会更多2.业务维护过程中表的字段可能会不断变化在海量的日志数据下,上述问.原创 2020-10-07 01:00:11 · 333 阅读 · 0 评论 -
Win10+Myeclipse+Hadoop单机环境搭建
最近因为工作需要简单搭建了一下win10 64位+myeclipse+hadoop环境,记录一下相关流程备用。参考链接:https://zhuanlan.zhihu.com/p/47444650准备工具包1. jdk :1.82. hadoop:2.6.4链接:https://pan.baidu.com/s/1_GKC8fQiEJFX2VCHnu0ZLQ 提取码:nlrp3.eclipse hadoop插件:链接:https://pan.baidu.com/s/1s6oTGRUKa...原创 2020-08-09 15:03:58 · 179 阅读 · 0 评论 -
Hadoop全分布式+Hive单节点部署实践记录
这篇文章主要记录一下搭建hadoop集群+hive的过程,方便以后的复现工作。搭建过程主要参考这三篇文章基本就可以了,不过由于软件版本差异也遇到了文章中没有提及的问题,我会给出解决方案供读者参考:[1]https://www.cnblogs.com/90zeng/p/hadoop_setup.html[2]https://sq.163yun.com/blog/article/21553...原创 2020-03-04 23:23:40 · 2022 阅读 · 0 评论