自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

万磁王的博客

我们不生产知识,我们只是知识的搬运工

  • 博客(22)
  • 资源 (1)
  • 收藏
  • 关注

原创 hadoop中的数据压缩

为什们要用压缩?在大数据时代,每个互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大,以至于不能用 G 或 T 来衡量。所以如何高效的处理分析大数据的问题摆在了面前。那么我们应用数据压缩的目的有两个: - 1.减少了存储文件所占空间 - 2.为数据传输提速压缩格式Hadoop 对于压缩格式的是自动识别。如果我们压缩的文件有相应压缩格式的扩展名(比如 l

2018-01-18 15:01:13 430

原创 hadoop中小文件处理

为什么hdfs不适合小文件的存储?1.因namenode将文件系统的元数据存放在内存中,因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放1million的文件至少消耗300MB内存,如果要存 放1billion的文件数目的话会超出硬件能力 2.HDFS适用于高吞吐量,而不适合低时间延迟的访问。如果同时存入1million的f

2018-01-18 14:59:55 380

原创 SparkStreaming 高可靠分析

背景为了理解Spark Streaming提供的语义,让我们记住Spark的RDD的基本容错语义。 1. RDD是一个不可改变的,确定性可重新计算的分布式数据集。每个RDD都会记住在容错输入数据集上使用的确定性操作的谱系来创建它。 1. 如果RDD的任何分区由于工作节点故障而丢失,则可以使用操作沿袭从原始容错数据集重新计算该分区。 1. 假设所有RDD转换都是确定性的,最终转换的RDD中

2018-01-13 15:29:42 333

原创 SparkStreaming之Helloworld

首先,我们将Spark Streaming类的名称和StreamingContext的一些隐式转换导入到我们的环境中,以便将有用的方法添加到我们需要的其他类(如DStream)中。StreamingContext是所有流媒体功能的主要入口点。我们创建一个具有两个执行线程的本地StreamingContext,批处理间隔为10秒。val sparkConf = new SparkConf()

2018-01-12 19:19:22 746

原创 Spark Sql介绍

概况Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种与Spark SQL进行交互的方式,包括SQL和Dataset API。在计算结果时,使用相同的执行引擎,而不管使用哪种API /语言表示计算

2018-01-12 16:34:52 582

原创 spark Ation算子

reduce(func)reduce将RDD中元素两两传递给输入函数,同时产生一个新的值,新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。scala> val c = sc.parallelize(1 to 10)scala> c.reduce((x, y) => x + y)res4: Int = 55reduceByKey顾名思义,reduc

2018-01-11 20:12:41 221

原创 spark Transformation 算子

map(func)通过函数func传递源的每个元素来形成一个新的分布式数据集val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))arr.map(x=>(x._1+x._2)).foreach(println)print: A1B2C3mapValuesmapValues顾名思义就是输入函数应用于RDD中K

2018-01-11 19:49:27 360

翻译 弹性分布式数据集(RDD)

并行集合并行集合 (Parallelized collections) 的创建是通过在一个已有的集合(Scala Seq)上调用 SparkContext 的 parallelize 方法实现的。集合中的元素被复制到一个可并行操作的分布式数据集中。例如,这里演示了如何在一个包含 1 到 5 的数组中创建并行集合:val data = Array(1, 2, 3, 4, 5)val d

2018-01-11 15:41:54 532

原创 圳鹏大数据:spark Rdd的默认分区

sparkRdd的默认分区有两大因素决定:1.spark.default.parallelism 2.文件块的大小spark.default.parallelism:(默认的并发数)本地模式下spark.default.parallelism :spark-shell 和spark-default.conf相关默认为4

2018-01-11 14:00:28 1608

原创 1.使用Spark Shell进行交互式分析

使用Spark Shell进行交互式分析基础Spark的shell提供了一个学习API的简单方法,也是一个交互式分析数据的强大工具。它可以在Scala(在Java VM上运行,因此是使用现有Java库的好方法)或Python中提供。通过在Spark目录中运行以下代码来启动它:D:\spark-1.6.2-bin-hadoop2.6\bin>spark-shellSpark的

2018-01-11 11:24:02 1132

原创 1.spark Shell的使用

### 使用Spark Shell进行交互式分析#### 基础Spark的shell提供了一个学习API的简单方法,也是一个交互式分析数据的强大工具。它可以在Scala(在Java VM上运行,因此是使用现有Java库的好方法)或Python中提供。通过在Spark目录中运行以下代码来启动它:```D:\spark-1.6.2-bin-hadoop2.6\bin>s

2018-01-11 11:19:00 201

原创 seq2seq_model.py ValueError: Attempt to reuse RNNCell <tensorflow.contrib.rnn.python.ops.core_rnn_ce

在tensorflow的translate的实例中遇到错误:Traceback (most recent call last):  File "/Users/mac/PycharmProjects/Mytensorflow/RNN/translate/translate.py", line 319, in     self()  File "/Users/mac/Pycha

2018-01-06 09:49:03 876

原创 seq2seq_model.py AttributeError: 'NoneType' object has no attribute 'update'

#### tensorflow/TensorFlow_seq2seq_tutorial-master/translate/translate.py的运行出现一下错误:AttributeError: 'NoneType' object has no attribute 'update'```Traceback (most recent call last):  File "/Us

2018-01-05 18:57:43 3435 1

原创 opencc 在mac操作系统上的安装.md

opencc作为一款开源的中文繁体简体互转软件非常好用,但是在mac上编译安装需要首先安装cmake、doxygen两个插件。 1.cmake的安装brew install cmakehttp://www.doxygen.nl/download.html2.doxygen的安装a.下载git clone https://github.com/doxygen/doxygen.gitcd dox

2017-12-31 11:30:36 1741

原创 利用Google Object Detection模块识别图片中的物体

笔者环境win1064位 1.anaconda python 3.5 64为安装包 2.安装tensflow1.0第一部分(图片物体识别)1.下载tensflow的源码包,并解压2.下载 Protoc protoc-3.4.0-win32.zip 解压protoc-3.4.0-win32.zip,并将bin文件夹内的protoc.exe拷贝到c:\windows\system32目录下(也

2017-09-11 16:28:31 4489 1

利用Google Object Detection模块识别图片中的物体

笔者环境win1064位1.anaconda python 3.5 64为安装包2.安装tensflow1.0### 第一部分(图片物体识别)- 1.下载tensflow的源码包,并解压- 2.下载 [Protoc](https://github.com/google/protobuf/releases/download/v3.4.0/protoc-3.4.0-

2017-09-11 16:26:39 211

原创 xgboost window64 在 Anaconda下安装

今天在玩xgboost,本人的环境是win10-64位操作系统,安装的是Anaconda,尝试了以下种方式都已失败而告终:http://blog.csdn.net/leo_xu06/article/details/52300869 http://www.jianshu.com/p/4c21d8ad8db5在stackoverflow看到此贴,基于anaconda 的安装方式,安装成功: http

2017-08-29 11:29:09 328

原创 java.lang.UnsatisfiedLinkError: com.android.tools.fd.runtime.IncrementalClassLoader$DelegateClassLoa

java.lang.UnsatisfiedLinkError: com.android.tools.fd.runtime.IncrementalClassLoader$DelegateClassLoader[DexPathList

2016-08-23 20:20:40 1222 1

原创 couldn't find "libvinit.so"

couldn't find "libvinit.so"

2016-08-23 20:05:16 2002

原创 Android 文件缓存 解析

Android 文件缓存 解析0 = {File@830038405472} “/data/data/com.uet.flash/app_tbs” 1 = {File@830038062432} “/data/data/com.uet.flash/shared_prefs” 2 = {File@830039983528} “/data/data/com.uet.flash/app_webview

2016-08-11 08:41:19 908

原创 wpimrvok

szzpbjjwjrdycbuzt

2015-09-02 18:30:14 3218

原创 ucmmqjdwfeksdf

tqpdgtgyxoclbjgxdikewjdtfs

2015-09-02 18:26:07 3220

spark-sql入门

spark-sql入门资源!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

2018-01-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除