自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 机器学习基本概念

什么是机器学习机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法,主要使用归纳、综合而不是演绎。它研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。demo:机器识别图片结果为:“A person riding a motorcycle on a dirt road”相关概念数据集:数据的集合训练集:用来进行训练,...

2019-04-14 22:45:05 355

原创 Spark小文件合并

1.问题描述最近使用spark sql执行etl时候出现了,最终结果大小只有几百k,但是小文件一个分区有上千的情况。危害:hdfs有最大文件数限制浪费磁盘资源(可能存在空文件);hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。2.解决方法方法一:通过spark的coalesce()方法和repartition()方法val rdd2 = rdd1.coa...

2019-01-29 20:09:26 13427

原创 LeetCode题汇总

LeetCode题汇总二分法变种DFS双指针/滑动窗口 前段时间工作很忙,也一直在专注于业务,没有时间做一些技术的总结,脑子容易生锈,作为一名技术人,尤其是在参加工作的前5年,甚至10年内,时刻警醒自己技术才是自己的核心竞争力,LeetCode题是很好的一种给大脑‘除锈’的方式,所以,有空做做不仅对参加面试有帮助,同时也能让大脑动一动,偶尔工作中也能用到,一举三得,岂不美哉。 更新ING。## 基础算法 /** * leetcode题:无 * 方法:二分搜索

2020-07-12 20:07:38 165

原创 程序员要如何把班上6

算上实习,工作也有三年多了,越来越觉得在实验室、在家研究技术跟在公司上班是两码事,虽然很多大公司招人的时候是专家标准,但是进去之后,大多数时间做的还是拧螺丝、搬砖的工作,但是还是有的人升职加薪、出任CEO、迎娶白富美、走向人生巅峰,有的人拿低绩效、没奖金,甚至面临被裁员;很重要的感觉还是性格因素,有的人天生就比较稳重,做事情有条理,也不容易出错,很不幸,我不是这一列的,但是为了让自己把班上的6一...

2019-06-23 17:40:33 224 1

原创 大表笛卡尔积优化思路

最近在工作过程中碰到了大表间的笛卡尔积,这个就比较恶心了,开始完全跑不出来,后来一步步优化,最终起码勉强能有结果,虽然有很多数据特殊性且思路简单,但是也还是记录下。案例假设有如下表数据:需要...

2019-06-16 23:13:28 4505

原创 flink概述

作为实时领域对飙spark的存在,flink现在已经得到广泛的使用了,既然能得到业界任何和使用,肯定有其过人之处,之后工作中也有可能会用到,了解一下总是没错的。什么是flinkFlink核心是一个流式的数据流执行引擎,提供各种API,如Java、Scala和Python,同事支持类似SQL的操作。为什么选flink数据传输方式首先需要了解两个概念:1.流处理:当一条数据被处理完成后,序...

2019-06-04 20:57:13 201

原创 Redis概述

Redis应该不用多说了,不管是做服务端还是做数据,多多少少都会接触。1.Redis概述Redis本质上是一个Key-Value类型的内存数据库,很像memcached,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据flush到硬盘上进行保存。因为是纯内存操作,Redis的性能非常出色,每秒可以处理超过 10万次读写操作,是已知性能最快的Key-Value DB。Redi...

2019-05-30 23:02:27 108

原创 记一波数据仓库从0到1的实战经历

之前算是经历了一个团队的数据体系从比较原始的状态到相对比较完善的数据仓库的演变过程,大概记录下,有个方向和思路。1.原始状态业务上纯需求驱动,无明确分工;根据需求,联系原数据方,通过各种技术手段得到结果。技术上数据存储主要依赖oracle和mysql,绝大多数存储在oracle中。任务调度大部分通过可执行jar包放到服务器上起crontab任务定时执行jar包,部分写在自己的j...

2019-05-29 22:36:56 4534

原创 各种题目整理

发现不整理,老是断,决定开一篇来整理下,主要包括力扣和SQL题;力扣简单package com.leetcode.wyk;import com.alibaba.fastjson.JSON;public class questionAndAnswer { //简单 /** 两数之和 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个...

2019-05-21 21:24:17 150

原创 kafka概述

kafka也是现在各家互联网公司里非常常用的技术了,还是学习一手,记录下,以备不时之需。1.本地kafka搭建1.安装brew2.安装kafka:brew install kafka 配置文件位置:/usr/local/etc/kafka/server.properties /usr/local/etc/kafka/zookeeper.propertie ...

2019-05-05 21:07:39 130

原创 机器学习 马太 iv 基础概念

最近工作中有接触到通过马太函数和iv算法进行特征筛选,虽然只是帮忙做一些简单的数据采集工作,不过,学习一下总归是多多益善的。马太函数马太效应,是指好的愈好,坏的愈坏,多的愈多,少的愈少的一种现象。即两极分化现象。类似于80/20法则,它们大概说的意思是一致的,在统计学中,这些说法被抽象成所谓的幂律分布,在分布图上,它表现为一条拖着长长尾巴的曲线。打个比方,我们取一个区域内拥有的财富为宗轴,...

2019-04-27 17:08:52 464

原创 EalsticSearch简介

1.Elasticsearch简介ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索...

2019-04-27 15:05:42 1025

原创 最全Java多线程知识点整理

无论是开dubbo接口、http接口,还是Java Web服务端开发,亦或者是各种中间件的开发;无并发,不Java,你们懂的;必须专门开一篇以示尊重,Java不息,更新不止。1.相关概念1.关键字 synchronized使用场景:原理:同步代码块: 反编译可以看到monitorenter,monitorexit指令(相对于不加synchronized多出来); 原理:每个对象...

2019-04-21 19:19:18 954

原创 Java内存泄漏

最近在工作中碰到了内存泄露的问题,导致服务器内存一直在阶梯上升,眼瞅着就要挂掉,只能紧急先重启服务,再慢找原因和解决,作为Java开发常见问题,还是记录一手。1.内存泄漏原因在Java中,内存泄漏就是存在一些被分配的对象,首先,这些对象是有被引用的,即在有向树形图中,存在树枝通路可以与其相连;其次,这些对象是无用的,即程序以后不会再使用这些对象。这些对象不会被GC所回收,然而它却占用内存。几...

2019-04-07 22:31:27 235

转载 spark shuffle对比hive shuffle

原文:https://blog.csdn.net/u010697988/article/details/70173104Spark 和 Hadoop一直是大数据离线计算的必经之路,自己在工作中也经常用到,所以学习一下原理还是很有必要的,不然碰到问题很容易一脸懵逼,其中感觉shuffle是两者的核心之一,故整理下,方便以后回顾。大数据的分布式计算框架目前使用的最多的就是hadoop的mapRed...

2019-04-07 22:26:45 3315

原创 HiveSQL优化

HiveSQL优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾Hadoop应该是当前最流行的大数据处理工具了(没有之一的那种),单独写MapReduce任务的应该不多了,主要还是用的Hive SQL,所以如何让HQL跑的又快又稳是非常重要的。执行SQL前首先,说SQL之前,可以在Hive表上做文章,比如:1.加分区这个应该是最常用的了,把数据分别存到各个partition...

2019-01-28 22:11:02 564

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除