自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 No.8 秀一下Doug Cutting亲笔签名的《Hadoop权威指南》

秀一下 Doug Cutting 亲笔签名的《Hadoop权威指南》,听讲座的时候提问送书,结束后找了 Doug Cutting 签名并合影。当初三个要搞大数据的小伙伴一起屁颠屁颠地骑自行车跑到清华听讲座,几年后一个搞运维了、一个搞JavaWeb了,就剩我一个搞数据工程了。作者:dantezhao |简书 | CSDN | GITHUB个人主页:http://dantezhao.com 文章可以转

2017-09-15 20:24:35 616 1

原创 No.7 Hadoop之父Doug Cutting在清华的讲座记录

0x00 前言2014年,Hadoop之父Doug Cutting在清华开了一次讲座,当时三个小伙伴一起翘班骑自行车到现场听了这场讲座,很认真地做了笔记。 现在翻出来回顾一下感觉还是有不少感触的,稍加整理分享出来。0x01 讲座记录整个讲座约一个小时,两点半左右开始,前半个小时左右Doug Cutting 总共大概7张PPT,后半个小时互动。Doug Cutting总共讲了大概7张PPT,每张PPT

2017-09-15 20:24:08 1295

原创 No.6 闲聊4年大数据经历

0x00 前言周末闲来无事,想到从13年接触大数据这个名词,到现在也有4年的时间了,随便聊一聊自己和大数据接触的那些经历。0x01 大数据 “什么是大数据?” 这个问题其实挺难回答的,因为随着技术和时代的变化,一些名词总是被赋予不同的概念,大数据也是,在居士的认知历程中,大数据的概念在某个时期有很广的含义,然后过了一段时间之后,就被划分出来了一些,然后又被划分出来一些,不知道以后还会是什么样子。

2017-09-15 20:23:16 832

原创 No.5 使用 PageRank 找到关系网中的牛人

0x00 前言社交关系数据已经准备就绪,PageRank算法的原理和实现我们也已经大致掌握,下面就可以在此基础上做一些有意思的事情了。本篇会在前面抓取的500w简书的粉丝数据上,使用 PageRank 找到其中的排名靠前的用户。0x01 前期准备1. 数据准备数据的存储格式如下,这也是我们在生产环境中经常使用的数据格式,因此在爬虫获取的阶段已经处理完毕。这份数据是一个有向图,左边为用户,右边为他的粉

2017-09-15 20:22:26 577

原创 No.4 聊一聊 PageRank 的原理和实现

0x00 前言Google出品必属精品!作为一名生长在Google大树下的草根程序员,Google的各种技术还是好好膜拜一下的。仔细也一想自己也算看了不少Google不少的论文:Goods、Spanner、F1、GFS、MapReduce、BigTable和Dremel。不过Google成名的PageRank算法没怎么重视,正好最近工作和业务时间都玩了一下,整理一两篇小短文,留个纪念。我一直认为,程

2017-09-10 09:48:39 738

原创 No.3 漫谈数据开发工程师的技术广度

0x00 前言今天和朋友在聊天,聊到怎样在面试和与人沟通的过程中体现自己的技术广度,感觉挺有意思,整理分享一下。分两个点来聊:1.有哪些方面的技术广度可以提高;2.怎样提高。其中第一个点可以近似地转换为数据开发工程师的技能树,有所不同,但是可以按照这个思路来考虑。数据开发工程师这个职位其实可以干很多事情,因为凡是和数据相关的东西基本上都会有数据开发工程师的身影。比如说推荐系统,虽说会有推荐算法的存在

2017-09-10 09:47:55 721 1

原创 No.2 从0写一个爬虫,爬取500w好友关系数据

0x00 前言上一篇文章已经写了一部分数据获取和爬虫的内容,这篇文章我们一起来实现一个网络爬虫,用这个小爬虫来爬取500w的简书的粉丝关系对。1. 两个小问题为什么要爬关系对数据呢,爬些文字数据岂不更好?为什么要爬关系对数据?因为居士最近正在搞和社交关系相关的项目,需要对大量的关系数据做处理,而且要用到 LPA 、 PageRank 这些算法,写博客本来就需要为自己学习和工作来服务,为了加深自己的理

2017-09-10 09:47:21 3003 1

原创 No.1 聊一聊数据获取和爬虫

0x00 前言为什么要把数据获取、爬虫放在一起来聊呢?居士是想成为一名数据科学家的!数据科学家就要具备很多的技能,什么统计学、数据挖掘、数据仓库、大数据计算、数据可视化等等。但是,首先我们要有数据,没有数据我们玩什么?想要玩数据,我们就要来聊一下数据获取,数据获取有很多途径,爬虫算是其中最自力更生的技能了,而实现爬虫又和图论的知识有很深的联系,因此在聊得时候还要顺便聊一下图论。0x01 数据获取我们

2017-09-10 09:46:45 562

原创 No.0 写博客那些事

0x00 写在前面有一段时间没有好好写点东西了,经过前段时间的折腾和思考,总算能够静下心好好想一想后续的学习规划,顺便开始新的博客写作旅途。0x01 我的博客时间轴2009年~2013年2009年,我开通的自己的第一个博客,那时候用的是用网易博客,用来装一下文艺,大概三四年,写了十多篇水文和一些小诗。(现在看起来特别逗)2015年初2015年初我注册了第二个博客,也是我的第一个技术博客,在csdn博

2017-09-10 09:46:01 394

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除