海量数据处理
文章平均质量分 94
码不停题Elon
这世界从来就只有强者的奋斗史,而没有弱者的墓志铭!
展开
-
教你如何迅速秒杀掉:99%的海量数据处理面试题
前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名 :-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文将摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问题。最后,有一点...转载 2018-03-05 17:17:04 · 258 阅读 · 0 评论 -
推荐系统系列三:推荐系统冷启动
下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。===================正文开始================...原创 2019-04-11 16:38:47 · 3705 阅读 · 0 评论 -
推荐系统系列一:推荐系统介绍
下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。===================正文开始===================一,推荐系...原创 2019-04-07 20:04:21 · 13432 阅读 · 3 评论 -
LRU算法 + Java实现代码
LRU原理LRU(Least recently used,最近最少使用)算法根据数据的历史访问记录来进行淘汰数据,其核心思想是“如果数据最近被访问过,那么将来被访问的几率也更高”。最常见的实现是使用一个链表保存缓存数据,详细算法实现如下新数据插入到链表头部; 每当缓存命中(即缓存数据被访问),则将数据移到链表头部; 当链表满的时候,将链表尾部的数据丢弃。 【命中率】 当存在热...原创 2019-04-06 20:47:44 · 701 阅读 · 0 评论 -
推荐系统系列二:推荐系统的工程实现
下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起学习进步,后面我也会阅读推荐系统相关的论文,并在本博客记录笔记,希望大家一起进步哈。 在我更新第一篇《推荐系统介绍》之后,过了一两天这篇介绍的阅读量就达到了三百多,可见...原创 2019-04-10 13:37:31 · 3566 阅读 · 1 评论 -
稀疏矩阵存储格式Compressed Sparse Column Format (CSC)
目的Compressed Sparse Column Format (CSC)的目的是为了压缩矩阵,减少矩阵存储所占用的空间。这很好理解,手法无法就是通过增加一些"元信息"来描述矩阵中的非零元素存储的位置(基于列),然后结合非零元素的值来表示矩阵。这样在一些场景下可以减少矩阵存储的空间。Spark API在Spark中我们一般创建这样的稀疏矩阵的API为: package o...转载 2019-01-03 16:26:31 · 1761 阅读 · 0 评论 -
更改引用高版本glibc的程序到引用低版本的glibc
1:问题背景描述在拥有高版本glibc的机器上编译分布式xgboost程序,结果在拥有低版本glibc版本的集群机器上无法运行,总是报错,显示缺少glibc_2.14,为了解决整个问题,google查阅了很多资料,大体给出了两种方案:方案一:升级集群所有机器的glibc版本以满足程序运行要求,但是升级glibc是有很大风险的,尤其是在生产环境,风险最大,所以放弃这个方法!方案二:在低版...原创 2018-10-17 09:17:11 · 16913 阅读 · 7 评论 -
Scala中object、class与trait的区别
今天在学习Scala时,突然想用Idea来创建一个学习类(cmd撸代码太痛苦),直接创建了一个class:class Test { def main(args: Array[String]) { print("Hello World!") }}当我要运行这个main函数时,缺无法执行,当时就郁闷了,再次查看新建时,才知道,Scala class的分类:那这三中类型:class,Obje...转载 2018-07-02 17:32:37 · 410 阅读 · 0 评论 -
从头到尾解析Hash表算法
作者:July、wuliming、pkuoliver 出处:http://blog.csdn.net/v_JULY_v。 说明:本文分为三部分内容, 第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法。------------------------------------ 第一部分:Top K 算法详解问题描述百...转载 2018-04-03 14:25:13 · 202 阅读 · 0 评论 -
怎么解决数据倾斜问题?
本文面向的读者是从事数据分析、数据处理(ETL)等相关工作的朋友们,相信大家在工作中一定遇到过数据倾斜的问题,读完本文,你会了解到数据倾斜的定义及其危害、产生的原因及应对措施、常见倾斜场景及解决办法等知识,相信对你今后处理数据倾斜问题会有一定的帮助。目前流行的大数据相关的计算框架之所以能够处理大量的数据和计算,基本上都是依赖分布式计算的思想,即由一个通过某种组织关系连接在一起的集群来共同完...原创 2019-04-19 14:35:32 · 5623 阅读 · 0 评论