普通网友-CSDN博客

原创 hadoop中的数据压缩

为什们要用压缩？在大数据时代，每个互联网公司在日常运营中生成、累积的用户网络行为数据。这些数据的规模是如此庞大，以至于不能用 G 或 T 来衡量。所以如何高效的处理分析大数据的问题摆在了面前。那么我们应用数据压缩的目的有两个： - 1.减少了存储文件所占空间 - 2.为数据传输提速压缩格式Hadoop 对于压缩格式的是自动识别。如果我们压缩的文件有相应压缩格式的扩展名（比如 l

2018-01-18 15:01:13 440

原创 hadoop中小文件处理

为什么hdfs不适合小文件的存储？1.因namenode将文件系统的元数据存放在内存中，因此存储的文件数目受限于 namenode的内存大小。HDFS中每个文件、目录、数据块占用150Bytes。如果存放1million的文件至少消耗300MB内存，如果要存放1billion的文件数目的话会超出硬件能力 2.HDFS适用于高吞吐量，而不适合低时间延迟的访问。如果同时存入1million的f

2018-01-18 14:59:55 395

原创 SparkStreaming 高可靠分析

背景为了理解Spark Streaming提供的语义，让我们记住Spark的RDD的基本容错语义。 1. RDD是一个不可改变的，确定性可重新计算的分布式数据集。每个RDD都会记住在容错输入数据集上使用的确定性操作的谱系来创建它。 1. 如果RDD的任何分区由于工作节点故障而丢失，则可以使用操作沿袭从原始容错数据集重新计算该分区。 1. 假设所有RDD转换都是确定性的，最终转换的RDD中

2018-01-13 15:29:42 343

原创 SparkStreaming之Helloworld

首先，我们将Spark Streaming类的名称和StreamingContext的一些隐式转换导入到我们的环境中，以便将有用的方法添加到我们需要的其他类（如DStream）中。StreamingContext是所有流媒体功能的主要入口点。我们创建一个具有两个执行线程的本地StreamingContext，批处理间隔为10秒。val sparkConf = new SparkConf()

2018-01-12 19:19:22 772

原创 Spark Sql介绍

概况Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息来执行额外的优化。有几种与Spark SQL进行交互的方式，包括SQL和Dataset API。在计算结果时，使用相同的执行引擎，而不管使用哪种API /语言表示计算

2018-01-12 16:34:52 599

原创 spark Ation算子

reduce(func)reduce将RDD中元素两两传递给输入函数，同时产生一个新的值，新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。scala> val c = sc.parallelize(1 to 10)scala> c.reduce((x, y) => x + y)res4: Int = 55reduceByKey顾名思义，reduc

2018-01-11 20:12:41 233

原创 spark Transformation 算子

map(func)通过函数func传递源的每个元素来形成一个新的分布式数据集val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))arr.map(x=>(x._1+x._2)).foreach(println)print： A1B2C3mapValuesmapValues顾名思义就是输入函数应用于RDD中K

2018-01-11 19:49:27 369

翻译弹性分布式数据集（RDD）

并行集合并行集合 (Parallelized collections) 的创建是通过在一个已有的集合(Scala Seq)上调用 SparkContext 的 parallelize 方法实现的。集合中的元素被复制到一个可并行操作的分布式数据集中。例如，这里演示了如何在一个包含 1 到 5 的数组中创建并行集合：val data = Array(1, 2, 3, 4, 5)val d

2018-01-11 15:41:54 541

原创圳鹏大数据：spark Rdd的默认分区

sparkRdd的默认分区有两大因素决定：1.spark.default.parallelism 2.文件块的大小spark.default.parallelism：（默认的并发数）本地模式下spark.default.parallelism ：spark-shell 和spark-default.conf相关默认为4

2018-01-11 14:00:28 1640

原创 1.使用Spark Shell进行交互式分析

使用Spark Shell进行交互式分析基础Spark的shell提供了一个学习API的简单方法，也是一个交互式分析数据的强大工具。它可以在Scala（在Java VM上运行，因此是使用现有Java库的好方法）或Python中提供。通过在Spark目录中运行以下代码来启动它：D:\spark-1.6.2-bin-hadoop2.6\bin>spark-shellSpark的

2018-01-11 11:24:02 1147

原创 1.spark Shell的使用

### 使用Spark Shell进行交互式分析#### 基础Spark的shell提供了一个学习API的简单方法，也是一个交互式分析数据的强大工具。它可以在Scala（在Java VM上运行，因此是使用现有Java库的好方法）或Python中提供。通过在Spark目录中运行以下代码来启动它：```D:\spark-1.6.2-bin-hadoop2.6\bin>s

2018-01-11 11:19:00 208

原创 seq2seq_model.py ValueError: Attempt to reuse RNNCell <tensorflow.contrib.rnn.python.ops.core_rnn_ce

在tensorflow的translate的实例中遇到错误：Traceback (most recent call last): File "/Users/mac/PycharmProjects/Mytensorflow/RNN/translate/translate.py", line 319, in self() File "/Users/mac/Pycha

2018-01-06 09:49:03 890

原创 seq2seq_model.py AttributeError: 'NoneType' object has no attribute 'update'

#### tensorflow/TensorFlow_seq2seq_tutorial-master/translate/translate.py的运行出现一下错误：AttributeError: 'NoneType' object has no attribute 'update'```Traceback (most recent call last): File "/Us

2018-01-05 18:57:43 3458 1

原创 opencc 在mac操作系统上的安装.md

opencc作为一款开源的中文繁体简体互转软件非常好用，但是在mac上编译安装需要首先安装cmake、doxygen两个插件。 1.cmake的安装brew install cmakehttp://www.doxygen.nl/download.html2.doxygen的安装a.下载git clone https://github.com/doxygen/doxygen.gitcd dox

2017-12-31 11:30:36 1765

原创利用Google Object Detection模块识别图片中的物体

笔者环境win1064位 1.anaconda python 3.5 64为安装包 2.安装tensflow1.0第一部分（图片物体识别）1.下载tensflow的源码包，并解压2.下载 Protoc protoc-3.4.0-win32.zip 解压protoc-3.4.0-win32.zip，并将bin文件夹内的protoc.exe拷贝到c:\windows\system32目录下（也

2017-09-11 16:28:31 4501 1

利用Google Object Detection模块识别图片中的物体

笔者环境win1064位1.anaconda python 3.5 64为安装包2.安装tensflow1.0### 第一部分（图片物体识别）- 1.下载tensflow的源码包，并解压- 2.下载 [Protoc](https://github.com/google/protobuf/releases/download/v3.4.0/protoc-3.4.0-

2017-09-11 16:26:39 221

原创 xgboost window64 在 Anaconda下安装

今天在玩xgboost，本人的环境是win10-64位操作系统，安装的是Anaconda，尝试了以下种方式都已失败而告终：http://blog.csdn.net/leo_xu06/article/details/52300869 http://www.jianshu.com/p/4c21d8ad8db5在stackoverflow看到此贴，基于anaconda 的安装方式，安装成功： http

2017-08-29 11:29:09 339

原创 java.lang.UnsatisfiedLinkError: com.android.tools.fd.runtime.IncrementalClassLoader$DelegateClassLoa

java.lang.UnsatisfiedLinkError: com.android.tools.fd.runtime.IncrementalClassLoader$DelegateClassLoader[DexPathList

2016-08-23 20:20:40 1242 1

原创 couldn't find "libvinit.so"

couldn't find "libvinit.so"

2016-08-23 20:05:16 2027

原创 Android 文件缓存解析

Android 文件缓存解析0 = {File@830038405472} “/data/data/com.uet.flash/app_tbs” 1 = {File@830038062432} “/data/data/com.uet.flash/shared_prefs” 2 = {File@830039983528} “/data/data/com.uet.flash/app_webview

2016-08-11 08:41:19 2400

原创 wpimrvok

szzpbjjwjrdycbuzt

2015-09-02 18:30:14 3229

原创 ucmmqjdwfeksdf

tqpdgtgyxoclbjgxdikewjdtfs

2015-09-02 18:26:07 3229

万磁王的博客