- 博客(12)
- 资源 (13)
- 收藏
- 关注
转载 Spark通过mapPartitions方式加载Json文件,提高文件加载速度
这几天遇到了需要从hdfs加载json字符串,然后转化成json对象的场景。刚开始的实现方式见如下代码:[java] view plain copy val loginLogRDD = sc.objectFile[String](loginFile, loadLoginFilePartitionNum) .filter(jso
2017-01-31 23:45:37 643
转载 HadoopRDD 的生成过程解析
Spark经常需要从hdfs读取文件生成RDD,然后进行计算分析。这种从hdfs读取文件生成的RDD就是HadoopRDD。那么HadoopRDD的分区是怎么计算出来的?如果从hdfs读取的文件非常大,如何高效的从hdfs加载文件生成HadoopRDD呢?本篇文章探讨这两个问题。 SparkContext.objectFile方法经常用于从hdfs加载文件,从加载hdfs文件到生成H
2017-01-31 23:44:09 2355
转载 spark rdd 源码解析
RDD是个抽象类,定义了诸如map()、reduce()等方法,但实际上继承RDD的派生类一般只要实现两个方法:def getPartitions: Array[Partition]def compute(thePart: Partition, context: TaskContext): NextIterator[T]getPartitions()用来告知怎么将i
2017-01-31 23:21:10 631
原创 spark-submit的参数名称解析
执行时需要传入的参数说明Usage: spark-submit [options] [app options]参数名称含义--master MASTER_URL可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local
2017-01-23 23:37:51 4610
原创 Spark 用户日志输出解析
以java版的wordcount代码为例,看不同阶段的用户日志会以什么形式输出public final class JavaWordCount { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String[] args) throws Exc
2017-01-23 23:35:50 5576
原创 spark on yarn 的运行模式
Spark on Yarn的两种运行模式实战:此时不需要启动Spark集群,只需要启动Yarn即可,Yarn的ResourceManager就相对于Spark Standalone模式下的Master!(我们启动spark集群是要用到standalone,现在有yarn了,就不用spark集群了) 1、Spark on Yarn的两种运行模式:唯一的决定因素是当前Applicati
2017-01-20 13:35:57 4498
原创 基于一阶 HMM 标注序列算法的分词算法解析
之前看到的有关python写的一篇 基于 一阶HMM 序列标注算法的分词代码,主要是基于B M E S序列状态和维特比算法,对当前的句子进行序列标注,然后基于标注序列进行中文分词,这也是目前主流的分词算法,因此结合代码,进行HMM 分词算法的详细分析,加深序列标注算法的理解,为后面的CRF + LSTM算法进行中文分词打下基础隐马尔科夫模型(HMM)模型介绍HMM模
2017-01-19 16:42:54 1692
原创 Hanlp中基于2阶HMM 序列标注算法进行分词的代码解析
/** * 让模型观测一个句子 * @param wordList */ public void learn(List wordList) { LinkedList sentence = new LinkedList(); for (IWord iWord : wordList) {
2017-01-19 15:21:19 1353
转载 关于ROC AUC指标的详细介绍说明
转发一篇对于ROC AUC 解释比较通俗明了的文章:ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们
2017-01-16 16:57:09 5281
原创 核函数的理解一
首先给出官方核函数的定义,其定义如下(可参考统计学习方法):设X是输入空间(欧氏空间或离散集合),Η为特征空间(希尔伯特空间),如果存在一个从X到Η的映射φ(x): X→Η使得对所有的x,y∈X,函数Κ(x,y)=φ(x)∙φ(y),则称Κ(x,y)为核函数,φ(x)为映射函数,φ(x)∙φ(y)为x,y映射到特征空间上的内积。在该定义中,涉及到几个概念
2017-01-04 23:16:25 10625 1
原创 神经网络中的能量函数
能量函数(energy function)一开始在热力学中被定义,用于描述系统的能量值,当能量值达到最小时系统达到稳定状态。在神经网络(Neural Network)中,在RBM中被首次使用。在RBM中,输入层v和隐藏层h之间的能量函数定义为:E(v,h)=∑i∈vaivi+∑j∈hbjhj+∑i∈v,j∈hvihjwij将a,v,b,h和w向量表示成矩阵,这个式子可以
2017-01-03 09:42:27 11317 1
text-classification-cnn-rnn.rar
2020-07-09
内存中引用与指针之间的使用与区别
2009-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人