BlockheadLS的博客

多看书,多请教,勤思考,勤记录。

排序:
默认
按更新时间
按访问量

大数据资料数据集

国内数据:链接:http://pan.baidu.com/s/1i5nyjBn 密码:26bm 好玩的数据集:链接:http://pan.baidu.com/s/1bSDIEi 密码:25zr 微软数据:链接:http://pan.baidu.com/s/1bpmo6uV 密码:286q 微...

2017-01-13 15:18:49

阅读数:1434

评论数:5

理解LSTM网络

说明这篇同样是一篇译文,通篇很少公式,但对于基本原理讲得很明白,决定翻译并分享它。英语水平有限,有的地方翻译不到位也敬请告知。原文地址如下,Understanding LSTM Networks。————————————————————————–循环神经网络人类并不是在每时每刻都在重新启动他们的思...

2017-01-12 12:35:35

阅读数:537

评论数:0

一个一步步进行反向传播的例子

说明学习深度学习的过程中,遇到了一个用例子讲解反向传播算法的博文,简单粗暴容易理解,很适合我这种小白,所以打算翻译一下分享,英文水平有限,翻译不对的地方请告知。原文地址在这。下面是译文。背景反向传播在神经网络的训练中是一种经常被用到的算法。关于反向传播算法网上有很多讲解,但是很少有用真实的数字为大...

2017-01-09 22:14:31

阅读数:1708

评论数:0

spark on yarn作业运行的jar包缓存优化

原文地址参考自下文这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终...

2016-12-12 16:13:45

阅读数:421

评论数:0

Spark的任务调度学习

背景Spark的调度依次是Application调度、Job调度、Stage调度和Task调度,其中在Spark On Yarn下,Application调度是ResourceManager的工作,Application级别资源的调度是Yarn来分配的,这在《Spark下Yarn-Cluster和...

2016-12-07 01:27:05

阅读数:521

评论数:0

Spark下Yarn-Cluster和Yarn-Client的区别

0 首先注意的概念ResourceManager:是集群所有应用程序的资源管理器,能够管理集群的计算资源并为每个Application分配,它是一个纯粹的调度器。 NodeManager:是每一台slave机器的代理,执行应用程序,并监控应用程序的资源使用情况。 Application Mas...

2016-11-25 01:51:16

阅读数:4687

评论数:2

Shell脚本学习之expect命令

http://blog.csdn.net/leexide/article/details/17485451

2016-11-10 09:52:30

阅读数:241

评论数:0

在shell脚本中使用expect实现scp传输问题

1.安装expectexpect用于shell脚本中自动交互,其是基于tcl编程语言的工具。所以安装expect首先安装tcl。本文中使用的是expect5.45和tcl8.6.6。安装tcl[root@tseg0 /]$ mkdir /tools [root@tseg0 /]$ tar -zxv...

2016-11-09 21:41:23

阅读数:4588

评论数:0

shell脚本创建用户并设置密码

0 背景在非root用户tseg下创建新的用户ls并设置密码123。1 命令行下添加用户及密码如果使用命令行时我们需要这样做:#创建用户ls sudo useradd ls #为ls用户设置密码 sudo passwd ls可以看到,要想完成此动作需要root权限。2 shell脚本下添加用户和设...

2016-11-04 15:13:14

阅读数:10525

评论数:0

BIRCH算法

概念BIRCH算法的全称是Balanced Iterative Reducing and Clustering Using Hierarchies,即利用层次方法的迭代归约和聚类。它的主要思想是建立一棵B树,原始数据存放在叶子节点中,并根据聚类个数和其它参数的设置放在不同的叶子节点中。聚类特征CF...

2016-10-25 18:15:20

阅读数:532

评论数:0

Spark编程指南--官方翻译

说明这是对Spark2.0.1的Spark Programming Guide的翻译,翻译它是想让自己静心看下去,英语水平也不高,所以有的地方难免出错,另外,翻译中的某些地方加入了自己的理解,可能就多添了一句,以便于理解。综述在一个高层次来说,每一个Spark应用程序都会包含driver程序(运行...

2016-10-24 15:10:04

阅读数:1002

评论数:2

Hadoop多用户配置

0.Hadoop多用户配置的背景。 Hadoop多用户配置的目的就是多个hadoop用户可以共同使用HDFS,但是只能操作属于自己的空间,不能跨用户空间操作(当然/tmp是属于大家的,任何用户都会对这个文件夹有写操作)。 Hadoop多用户配置,...

2016-10-14 15:05:15

阅读数:2503

评论数:0

Learning Spark 笔记(七) -- 受益于分区的操作

10 . 单元操作是怎样受益的?以reduceByKey为例子,reduceByKey是在本地归约后再发送到一个主机上再进行归约。如果父RDD是有分区信息的,那么就可能只会在本地归约了,而不会再跨网络发送到其它主机上。二元操作是怎样受益于分区的?比如join(),至少会有一个RDD不会被shuff...

2016-08-30 17:24:12

阅读数:314

评论数:0

Learning Spark 笔记(六) -- 指定分区信息改善join()等的操作

9 . 默认情况下,join()操作会对两个RDD的主键做哈希以分区,通过网络将主键相同的元素发送到同一台机器上,然后根据相同的主键再进行连接。例子如下:val sc = new SparkContext() val userData = sc.sequenceFile[UserID,LinkIn...

2016-08-30 08:40:35

阅读数:1053

评论数:0

Learning Spark 笔记(五) -- coalesce、repartition

8 . 在Spark中,有两种方法可以重设RDD的分区,coalesce和repartition。先看一下coalesce和repartition的定义:def coalesce(numPartitions: Int, shuffle: Boolean = false){...} def repa...

2016-08-30 00:08:45

阅读数:521

评论数:0

Learning Spark 笔记(四) -- reduceByKey、combineByKey

6 . reduceByKey运行多个reduce操作,每个key对应一个reduce操作,只不过reduce返回的是结果,reduceByKey返回的是一个新的RDD。 7 . Spark有很多根据键来合并数据的操作,其中大部分都是用combineByKey来实现的。下面是一个利用combin...

2016-08-29 17:37:07

阅读数:683

评论数:0

Learning Spark 笔记(三) -- take和persist

4 . take(n)试图最小化访问分区,此操作并不一定以期待的顺序返回数据。 5 . 当持久化一个RDD的时候,计算这个RDD的节点会保存它们的分区。如果缓存了数据的节点出错了,Spark会在需要的时候重新计算丢失的分区。只有遇到action的时候才会真正的执行持久化操作。默认的持久化操...

2016-08-29 00:58:18

阅读数:709

评论数:0

Learning Spark 笔记(二) -- aggregate初值初探

fold和aggregate都需要初值,且每个初值应用到每个分区。例子如下: val input = sc.parallelize(List(1,2,3,4,5,6),3) val result = input.aggregate((0, 0))( ...

2016-08-28 17:43:30

阅读数:344

评论数:0

Learning Spark 笔记(一) -- Lazy优势和transformation传参

lazy valuation的优势。它是为大数据而生的,目标是减少迭代次数,节约时间和空间。比如下面的这一段代码 val text = sc.textFile(“…”) val python_lines = text.filter(x=>x.contains(“python”)) py...

2016-08-28 11:17:53

阅读数:744

评论数:0

贝叶斯估计与结构风险最小化

2016-06-16 23:46:33

阅读数:581

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭