BlockheadLS-CSDN博客

转载大数据资料数据集

国内数据：链接：http://pan.baidu.com/s/1i5nyjBn 密码：26bm 好玩的数据集：链接：http://pan.baidu.com/s/1bSDIEi 密码：25zr 微软数据：链接：http://pan.baidu.com/s/1bpmo6uV 密码：286q 微博数据集：链接:http://pan.baidu.com/s/1jHCOwCI 密码:x58f 遥感影

2017-01-13 15:18:49 3475 10

说明这篇同样是一篇译文，通篇很少公式，但对于基本原理讲得很明白，决定翻译并分享它。英语水平有限，有的地方翻译不到位也敬请告知。原文地址如下，Understanding LSTM Networks。————————————————————————–循环神经网络人类并不是在每时每刻都在重新启动他们的思考过程。就像你读一篇散文，你对某个单词的理解是基于前面每一个词的。你不会把之前的都扔掉，然后重新开始思考

2017-01-12 12:35:35 985

翻译一个一步步进行反向传播的例子

说明学习深度学习的过程中，遇到了一个用例子讲解反向传播算法的博文，简单粗暴容易理解，很适合我这种小白，所以打算翻译一下分享，英文水平有限，翻译不对的地方请告知。原文地址在这。下面是译文。背景反向传播在神经网络的训练中是一种经常被用到的算法。关于反向传播算法网上有很多讲解，但是很少有用真实的数字为大家举例子来解释的。在本篇博文中，我将努力用一个具体的例子来解释反向传播是怎样工作的，为了确定自己理解的是

2017-01-09 22:14:31 4256 1

转载 spark on yarn作业运行的jar包缓存优化

原文地址参考自下文这几天一直在追查spark on yarn的作业运行中的jar包分发，以及执行后的jar包删除的问题。从一开始的毫无头绪，到后来逐渐清晰，到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说，虽然问题不大，对某些大牛们来说也真是小case，但是追查问题，定位问题到最终解决问题的过程，对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题，以及解决的过程，给后面的

2016-12-12 16:13:45 1667

原创 Spark的任务调度学习

背景Spark的调度依次是Application调度、Job调度、Stage调度和Task调度，其中在Spark On Yarn下，Application调度是ResourceManager的工作，Application级别资源的调度是Yarn来分配的，这在《Spark下Yarn-Cluster和Yarn-Client的区别中》做了介绍。本文所记录的Spark的任务调度是在Application已经

2016-12-07 01:27:05 1050

原创 Spark下Yarn-Cluster和Yarn-Client的区别

0 首先注意的概念ResourceManager：是集群所有应用程序的资源管理器，能够管理集群的计算资源并为每个Application分配，它是一个纯粹的调度器。 NodeManager：是每一台slave机器的代理，执行应用程序，并监控应用程序的资源使用情况。 Application Master：每一个应用程序都会有一个Application Master，它的主要职责是向RM申请资源、在每

2016-11-25 01:51:16 7720 3

转载 Shell脚本学习之expect命令

http://blog.csdn.net/leexide/article/details/17485451

2016-11-10 09:52:30 578

原创在shell脚本中使用expect实现scp传输问题

1.安装expectexpect用于shell脚本中自动交互，其是基于tcl编程语言的工具。所以安装expect首先安装tcl。本文中使用的是expect5.45和tcl8.6.6。安装tcl[root@tseg0 /]$ mkdir /tools[root@tseg0 /]$ tar -zxvf tcl8.6.6-src.tar.gz[root@tseg0 /]$ cd tcl8.6.6/un

2016-11-09 21:41:23 11488 1

原创 shell脚本创建用户并设置密码

0 背景在非root用户tseg下创建新的用户ls并设置密码123。1 命令行下添加用户及密码如果使用命令行时我们需要这样做：#创建用户lssudo useradd ls#为ls用户设置密码sudo passwd ls可以看到，要想完成此动作需要root权限。2 shell脚本下添加用户和设置密码因为添加用户和设置密码需要root权限，所以在非root用户下需要使用sudo，但是sudo的每次

2016-11-04 15:13:14 26876

原创 BIRCH算法

概念BIRCH算法的全称是Balanced Iterative Reducing and Clustering Using Hierarchies，即利用层次方法的迭代归约和聚类。它的主要思想是建立一棵B树，原始数据存放在叶子节点中，并根据聚类个数和其它参数的设置放在不同的叶子节点中。聚类特征CF聚类特征CF是BIRCH算法最核心的概念，它是多个数据点的结合表示，是一个三元组 (N,LS,SS)(N

2016-10-25 18:15:20 1661 1

翻译 Spark编程指南--官方翻译

说明这是对Spark2.0.1的Spark Programming Guide的翻译，翻译它是想让自己静心看下去，英语水平也不高，所以有的地方难免出错，另外，翻译中的某些地方加入了自己的理解，可能就多添了一句，以便于理解。综述在一个高层次来说，每一个Spark应用程序都会包含driver程序（运行用户main函数的程序）和在集群上执行各种各样的并行操作。Spark提供的主要抽象是RDD（弹性的分布式

2016-10-24 15:10:04 1590 2

原创 Hadoop多用户配置

0.Hadoop多用户配置的背景。 Hadoop多用户配置的目的就是多个hadoop用户可以共同使用HDFS，但是只能操作属于自己的空间，不能跨用户空间操作（当然/tmp是属于大家的，任何用户都会对这个文件夹有写操作）。 Hadoop多用户配置，相当于给每个用户一个hadoop客户端，每个用户都可以使用hadoop的命令操作属于自己的HDFS空间。

2016-10-14 15:05:15 5869

原创 Learning Spark 笔记(七) -- 受益于分区的操作

10 . 单元操作是怎样受益的？以reduceByKey为例子，reduceByKey是在本地归约后再发送到一个主机上再进行归约。如果父RDD是有分区信息的，那么就可能只会在本地归约了，而不会再跨网络发送到其它主机上。二元操作是怎样受益于分区的？比如join()，至少会有一个RDD不会被shuffle。如果两个RDD有同样的partitioner，且被缓存在相同的机器上，则不会shuffle产生，比

2016-08-30 17:24:12 568

原创 Learning Spark 笔记(六) -- 指定分区信息改善join()等的操作

9 . 默认情况下，join()操作会对两个RDD的主键做哈希以分区，通过网络将主键相同的元素发送到同一台机器上，然后根据相同的主键再进行连接。例子如下：val sc = new SparkContext()val userData = sc.sequenceFile[UserID,LinkInfo]("hdfs://...").persistdef processNewLogs(logFile

2016-08-30 08:40:35 2682

原创 Learning Spark 笔记(五) -- coalesce、repartition

8 . 在Spark中，有两种方法可以重设RDD的分区，coalesce和repartition。先看一下coalesce和repartition的定义：def coalesce(numPartitions: Int, shuffle: Boolean = false){...}def repartition(numPartitions: Int)(implicit ord: Ordering[T

2016-08-30 00:08:45 852

原创 Learning Spark 笔记(四) -- reduceByKey、combineByKey

6 . reduceByKey运行多个reduce操作，每个key对应一个reduce操作，只不过reduce返回的是结果，reduceByKey返回的是一个新的RDD。 7 . Spark有很多根据键来合并数据的操作，其中大部分都是用combineByKey来实现的。下面是一个利用combineByKey来计算每个key的value平均值的例子。val input = sc.textFile("

2016-08-29 17:37:07 1244

原创 Learning Spark 笔记(三) -- take和persist

4 . take(n)试图最小化访问分区，此操作并不一定以期待的顺序返回数据。 5 . 当持久化一个RDD的时候，计算这个RDD的节点会保存它们的分区。如果缓存了数据的节点出错了，Spark会在需要的时候重新计算丢失的分区。只有遇到action的时候才会真正的执行持久化操作。默认的持久化操作是将数据存放在JVM中作为非序列化对象。如下面wordcount的例子：val lines = sc.

2016-08-29 00:58:18 1348

原创 Learning Spark 笔记(二) -- aggregate初值初探

fold和aggregate都需要初值，且每个初值应用到每个分区。例子如下： val input = sc.parallelize(List(1,2,3,4,5,6),3) val result = input.aggregate((0, 0))( (acc, value) => (acc._1 + valu

2016-08-28 17:43:30 657

原创 Learning Spark 笔记(一) -- Lazy优势和transformation传参

lazy valuation的优势。它是为大数据而生的，目标是减少迭代次数，节约时间和空间。比如下面的这一段代码 val text = sc.textFile(“…”) val python_lines = text.filter(x=>x.contains(“python”)) python_lines.first 程序只有遇到rdd.first类似的action才会去真正的执行textF

2016-08-28 11:17:53 1977

原创贝叶斯估计与结构风险最小化

2016-06-16 23:46:33 1364

原创极大似然估计与经验风险最小化

2016-06-16 23:45:15 1130

原创学习理论的一些总结

2016-06-16 23:42:21 627

原创 LibSVM（java版）的使用

0 准备工作 1）下载一个LibSVM； 2）了解一下SVM的原理还是非常必要的，不然都不知道参数是啥意思。。我看过一篇SVM入门的博客，里面有八讲，分享之。1 LibSVM的使用介绍

2015-11-27 22:27:35 11646 13

原创用TFIDF给特征词赋权值

0 背景在上一篇的用CHI检验的文章中我们已经获得了特征词，这些特征词在某一篇文章中出现的频率是不一样的，也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度，就必须赋权重。在本篇文章中，我们使用的方法是TFIDF。1 VSM向量空间模型哎？不是讲TFIDF吗，怎么会有VSM向量空间模型呢。是这样，在经过CH

2015-11-24 22:26:03 4241 1

原创用CHI检验提取文本特征词

0 背景还是老师的文本分类的大作业。。。在对文本数据集分词并且除去停用词以后，我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多，在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是没有白学的。。。1 CHI检验基础卡方检定一个应用的场景是独立性检验。“独立性检定”验证从两个变数抽出的配对观察值组是

2015-11-22 14:02:41 6729 1

原创中文分词系统NLPIR（2015版）的Java接口使用学习

前言：这几天数据挖掘的大作业又用到分词了，首先想到的肯定是中科院的分词系统NLPIR，但是之前用的事2013版的，2015版的有了新的变化。增加了函数和效率自是不必说，由于我是用的java，所以必须使用NLPIR的java接口，NLPIR提供了一个jna的jar包，其实确切来说是打包成了一个bundle，可见NLPIR非常有雄心，以后也必定有更多的功能bundle。此外，新版的

2015-11-09 13:51:12 1714 1

原创 Spark的flatMap和Map的区别

背景：在学习spark的时候，有一个开篇的例子中有两句代码如下所示：val input = sc.textFile(inputFile) val words = input.flatMap(line=>line.split(" ")) 上面两句的意思是，输入一个文件，然后以单空格作为将每一行的输入划分为单词s。另外，在Spark提供的API中也

2015-11-08 18:15:39 2065

转载 OSGI的类加载机制

声明：以下为转载内容原博客地址为http://blog.csdn.net/vking_wang/article/details/12875619思路OSGi每个模块都有自己独立的classpath。如何实现这一点呢？是因为OSGi采取了不同的类加载机制：OSGi为每个bundle提供一个类加载器，该加载器能够看到bundle Jar文件内部的类和资源；为了让bun

2015-11-08 16:03:53 810

原创 Ubuntu 14 下Spark 1.4.1 安装到eclipse 3.8

一、安装Scala插件打开eclipse，依次选择Help->Install New Software，点击Add按钮，如图所示，其中添加的路径为：http://download.scala-ide.org/sdk/e38/scala29/stable/site，然后点击ok，稍等一下便可以安装完成了。需要联网。

2015-11-07 21:45:28 641

原创决策树ID3的学习与实现

0. 绪论昨天完成了决策树ID3算法的编码，心情真的很激动呀，虽然是针对具体数据而生的，但是还是很自豪的说。在这个过程中对ID3算法也加深了印象。决策树学习主要是特征选择（实则是特征属性的排优）和基于ID3算法决策树的生成，对于决策树的剪枝本文并不讨论。1. 示例数据2. 预备知识信息熵：就决策的过程来说，熵是描述一个决策过程的混乱程度，如果选择过程是特定的则熵为0，如果

2015-10-20 18:48:18 909

BlockheadLS的博客