![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BigData
一直青蛙
一枚挣扎在一线的屌丝数据开发
展开
-
HiveSQL优化
HiveSQL优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾Hadoop应该是当前最流行的大数据处理工具了(没有之一的那种),单独写MapReduce任务的应该不多了,主要还是用的Hive SQL,所以如何让HQL跑的又快又稳是非常重要的。执行SQL前首先,说SQL之前,可以在Hive表上做文章,比如:1.加分区这个应该是最常用的了,把数据分别存到各个partition...原创 2019-01-28 22:11:02 · 565 阅读 · 0 评论 -
Spark小文件合并
1.问题描述最近使用spark sql执行etl时候出现了,最终结果大小只有几百k,但是小文件一个分区有上千的情况。危害:hdfs有最大文件数限制浪费磁盘资源(可能存在空文件);hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。2.解决方法方法一:通过spark的coalesce()方法和repartition()方法val rdd2 = rdd1.coa...原创 2019-01-29 20:09:26 · 13435 阅读 · 0 评论 -
spark shuffle对比hive shuffle
原文:https://blog.csdn.net/u010697988/article/details/70173104Spark 和 Hadoop一直是大数据离线计算的必经之路,自己在工作中也经常用到,所以学习一下原理还是很有必要的,不然碰到问题很容易一脸懵逼,其中感觉shuffle是两者的核心之一,故整理下,方便以后回顾。大数据的分布式计算框架目前使用的最多的就是hadoop的mapRed...转载 2019-04-07 22:26:45 · 3335 阅读 · 0 评论 -
机器学习基本概念
什么是机器学习机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法,主要使用归纳、综合而不是演绎。它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。demo:机器识别图片结果为:“A person riding a motorcycle on a dirt road”相关概念数据集:数据的集合训练集:用来进行训练,...原创 2019-04-14 22:45:05 · 358 阅读 · 0 评论 -
EalsticSearch简介
1.Elasticsearch简介ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索...原创 2019-04-27 15:05:42 · 1030 阅读 · 0 评论 -
机器学习 马太 iv 基础概念
最近工作中有接触到通过马太函数和iv算法进行特征筛选,虽然只是帮忙做一些简单的数据采集工作,不过,学习一下总归是多多益善的。马太函数马太效应,是指好的愈好,坏的愈坏,多的愈多,少的愈少的一种现象。即两极分化现象。类似于80/20法则,它们大概说的意思是一致的,在统计学中,这些说法被抽象成所谓的幂律分布,在分布图上,它表现为一条拖着长长尾巴的曲线。打个比方,我们取一个区域内拥有的财富为宗轴,...原创 2019-04-27 17:08:52 · 465 阅读 · 0 评论 -
记一波数据仓库从0到1的实战经历
之前算是经历了一个团队的数据体系从比较原始的状态到相对比较完善的数据仓库的演变过程,大概记录下,有个方向和思路。1.原始状态业务上纯需求驱动,无明确分工;根据需求,联系原数据方,通过各种技术手段得到结果。技术上数据存储主要依赖oracle和mysql,绝大多数存储在oracle中。任务调度大部分通过可执行jar包放到服务器上起crontab任务定时执行jar包,部分写在自己的j...原创 2019-05-29 22:36:56 · 4536 阅读 · 0 评论 -
flink概述
作为实时领域对飙spark的存在,flink现在已经得到广泛的使用了,既然能得到业界任何和使用,肯定有其过人之处,之后工作中也有可能会用到,了解一下总是没错的。什么是flinkFlink核心是一个流式的数据流执行引擎,提供各种API,如Java、Scala和Python,同事支持类似SQL的操作。为什么选flink数据传输方式首先需要了解两个概念:1.流处理:当一条数据被处理完成后,序...原创 2019-06-04 20:57:13 · 203 阅读 · 0 评论 -
大表笛卡尔积优化思路
最近在工作过程中碰到了大表间的笛卡尔积,这个就比较恶心了,开始完全跑不出来,后来一步步优化,最终起码勉强能有结果,虽然有很多数据特殊性且思路简单,但是也还是记录下。案例假设有如下表数据:需要...原创 2019-06-16 23:13:28 · 4510 阅读 · 0 评论