2018年04月_天地不仁以万物为刍狗

原创编程思想总结 - 分解问题，解决问题

1，先把问题理解清楚确认好场景，考虑的因素沟通并确认好已知2，基于已知信息，分解问题在已知的基础上，把一个问题分解成几个子问题3，解决问题（避免做无用功）解决子问题，找到更好的解决方法4，基于分布的子问题解决，重构解决方案，全局优化时间和空间的平衡缓存分布式数据库的多份备份存储 ...

2018-04-15 13:05:03 783

原创 Spark share 今天给team做的spark入门级分享

Spark 入门分享，如需文档请参照https://github.com/tianyeshiye/share-meeting

2018-04-30 22:12:41 297

概要Spark RDD主要由Dependency、Partition、Partitioner组成，Partition是其中之一。一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度，所以理解Partition是了解spark背后运行原理的第一步。P...

2018-04-29 01:18:06 182

转载 Mark : Spark RDD 内部结构(二) RDD分区

RDD 分区分区先回答第一个问题：RDD 内部，如何表示并行计算的一个计算单元。答案是使用分区（Partition）。RDD 内部的数据集合在逻辑上和物理上被划分成多个小子集合，这样的每一个子集合我们将其称为分区，分区的个数会决定并行计算的粒度，而每一个分区数值的计算都是在一个单独的任务中进行，因此并行任务的个数，也是由 RDD（实际上是一个阶段的末 RDD，调度章节会介绍）分区的个数决定的，我会...

2018-04-29 01:05:48 289

原创总结 - Spark多线程与 HadoopMapReduce多进程

总结 - Spark多线程与 HadoopMapReduce多进程

2018-04-23 23:16:18 520 1

原创待续总结 - parquet 与 avro

paruet列存文件结构可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量压缩编码可以降低磁盘存储空间只读取需要的列，支持向量运算，能够获取更好的扫描性能 Schema ：Parquet文件尾部存储了文件的元数据信息和统计信息，自描述的，方便解析 Parquet列式存储带来的性能上的提高在业内已经...

2018-04-23 21:31:29 1402

原创 EOS 搭建本地运行环境

EOS 搭建本地运行环境由于官方的自动安装指南有很多坑我自己安装的几次都没有成功所有做了一个本地环境搭建文档，做了一个Shell已记录一下，githubhttps://github.com/tianyeshiye/EOS-Install-Doc待续。。。参考：https://bihu.com/article/179190https://bihu.com/article/192620...

2018-04-21 22:15:13 326

原创 IPFS

星际文件系统IPFS（InterPlanetary File System）是一个面向全球的、点对点的分布式版本文件系统，目标是为了补充（甚至是取代）目前统治互联网的超文本传输协议（HTTP），将所有具有相同文件系统的计算设备连接在一起。原理用基于内容的地址替代基于域名的地址，也就是用户寻找的不是某个地址而是储存在某个地方的内容，不需要验证发送者的身份，而只需要验证内容的哈希，通过这样可以让网页的...

2018-04-18 22:31:49 741

原创编程思想 - OpenHashMap 为什么比hashmap 快

Hashmap的数据结构HashMap的数据结构就是数组加链表，网上说得很多可以自行查找学习 https://www.cnblogs.com/zx-bob-123/archive/2017/12/26/8118074.htmlOpenHashMap 的数据机构package org.apache.spark.util.collectionpublic class OpenHashMap...

2018-04-16 22:37:53 814

转载 Mark ：BlockingQueue

https://blog.csdn.net/smuedward/article/details/54574938（一）BlockingQueue的原理1. 什么是BlockingQueue? 阻塞队列（BlockingQueue）是一个支持两个附加操作的队列。这两个附加的操作是：在队列为空时，获取元素的线程会等待队列变为非空。当队列满时，存储元素的线程会等待队列可用。阻塞队列常用于生产者和消费者的...

2018-04-16 21:21:54 101

转载 Mark ： BlockingQueue在任务调度中的精彩应用

https://blog.csdn.net/bluishglc/article/details/78447813问题来了…我们正在构建的系统需要从外部第三方系统中采集数据，受不可控的外部环境的影响，我们的数据采集工作经常被阻塞，一种典型的情况是：某个目标数据库因为要同时处理多个外围系统叠加的查询请求而经常响应缓慢，从而导致我们的Job严重超时，而这个Job原有的设计是每5分钟执行一次，每次执行时会...

2018-04-16 21:16:54 96

转载 Mark : 【Scala】使用Option、Some、None，避免使用null

避免null使用大多数语言都有一个特殊的关键字或者对象来表示一个对象引用的是“无”，在Java，它是null。在Java 里，null 是一个关键字，不是一个对象，所以对它调用任何方法都是非法的。但是这对语言设计者来说是一件令人疑惑的选择。为什么要在程序员希望返回一个对象的时候返回一个关键字呢？Scala的Option类型为了让所有东西都是对象的目标更加一致，也为了遵循函数式编程的习惯，Scala...

2018-04-16 00:36:47 224

转载 Mark : Spark文章收录

Spark修炼之道（进阶篇）——Spark入门到精通：第十四节 Spark Streaming 缓存、Checkpoint机制https://blog.csdn.net/lovehuangjiaju/article/details/50102831Spark修炼之道（进阶篇）——Spark入门到精通：第十二节 Spark Streaming—— DStream Window操作https://bl...

2018-04-16 00:21:18 535

转载 Mark : Scala 文章收录

Scala入门到精通——第十八节隐式转换与隐式参数（一）https://blog.csdn.net/lovehuangjiaju/article/details/47264655Scala入门到精通——第十八节隐式转换与隐式参数（二）https://blog.csdn.net/lovehuangjiaju/article/details/47323861...

2018-04-16 00:21:11 100

转载 Mark : Hadoop源码解析之: TextInputFormat如何处理跨split的行

https://blog.csdn.net/bluishglc/article/details/9380087我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理：对输入数据进行切分，生成一组split，一个split会分发给一个mapper进行处理。针对每个split，再创建一个RecordReader读取Split内的数据，并按照<key...

2018-04-15 22:07:17 112

转载 mark : 大数据环境安装列表

hadoop 2.2.0集群安装https://blog.csdn.net/bluishglc/article/details/24591185hbase 0.98.1集群安装 https://blog.csdn.net/bluishglc/article/details/24593597HIVE 0.14.0安装 https://blog.csdn.net/bluishglc/article...

2018-04-15 21:28:35 128

原创编程思想 - 堆排序

堆是一颗完全二叉树。简而言之，一个二叉树是饱满的---即二叉树都满了，即使没有饱满，那么上一层都是饱满，最后一层叶子节点从左向右排列。但是堆相对于完全二叉树有了自己的特点，堆分成最大堆及最小堆，对于最大堆有：1、根节点（堆顶）的关键字是最大（至少要大于或等于）的；2、父亲节点必然比左右子节点都要大（至少等于）--左右节点之间没有大小之分，但是都比父亲节点少。对于最小堆，性质类似：1、根节点（堆顶）...

2018-04-15 20:56:49 173

原创编程思想 - 五大常用算法详解

https://www.cnblogs.com/brucemengbm/p/6875340.htmlhttps://blog.csdn.net/changyuanchn/article/details/51476281https://www.cnblogs.com/chuninggao/p/7295793.html分治法基本思想将一个问题，分解为多个子问题，递归的去解决子问题，最终合并为问题的解适...

2018-04-15 20:46:11 940 1

原创编程思想 - 归并排序

参照：https://blog.csdn.net/morewindows/article/details/6678165https://blog.csdn.net/morewindows/article/details/6709644/

2018-04-15 20:46:01 160

原创编程思想 - 快速排序

参照：https://blog.csdn.net/morewindows/article/details/6684558https://blog.csdn.net/morewindows/article/details/6709644/

2018-04-15 20:45:54 177

原创编程思想总结 - 动态规划算法

地图软件之动态规划算法

2018-04-15 14:13:55 436

原创编程思想总结 - 堆排序

二叉树之堆排序

2018-04-15 14:12:58 134

转载 mark : eclipse IDE使用git方法简单介绍

https://www.cnblogs.com/heal/p/6427402.html

2018-04-14 22:15:37 141

原创编程思想总结 - 模块化平行处理分治

1 ，模块化不用多说，做过软件开发的人对模块化都有自己的真实体验2，平行处理生产的流水线，就是一个平行处理的例子。实际计算机的算法或者工作方式，多数都生活中总结出来的（阿尔法狗例外哈）3，分治大家应该都知道hadoop的MapReduce吧，这就是一个很好的分治处理。...

2018-04-12 21:02:48 253

转载 Hadoop 在Windows7操作系统下使用Eclipse来搭建hadoop开发环境

网上有一些都是在Linux下使用安装Eclipse来进行hadoop应用开发，但是大部分Java程序员对linux系统不是那么熟悉，所以需要在windows下开发hadoop程序，所以经过试验，总结了下如何在windows下使用Eclipse来开发hadoop程序代码。 1、需要下载hadoop的专门插件jar包hadoop版本为2.3.0，hadoop集群搭建在centos6x上面，插件包下载...

2018-04-09 06:31:20 171

转载搭建Hadoop2.6.0+Eclipse开发调试环境

1. 环境Eclipse版本Luna 4.4.1安装插件hadoop-eclipse-plugin-2.6.0.jar，下载后放到eclipse/plugins目录即可。2. 配置插件2.1 配置hadoop主目录解压缩hadoop-2.6.0.tar.gz到C:\Downloads\hadoop-2.6.0，在eclipse的Windows->Preferences的Hadoop Map/...

2018-04-08 23:59:21 757

转载在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

第一篇，在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境。1. 所需要的软件使用VMware 11.0搭建虚拟机，安装Ubuntu 14.04.2系统。Jdk 1.7.0_80Hadoop 2.6.02. 安装VMware和UbuntuWindows 7下用VMware Workstation 10虚拟机安装 Ubuntu 14.04 http://www.linuxidc.com/Li...

2018-04-08 23:53:43 194

转载 Mark : Impala 教程

Impala 教程本章节包括演示当软件安装之后，如何开始使用 Impala 的教程场景。着重于介绍载入数据的技术，因为当已经有数据在表中并且可以查询这些数据，你可以快速接触到更高级的 Impala 功能。 Note: 实际上，本教程教你从“0”开始到拥有期望的 Impala 表与数据。某些情况下，你可能需要从外部源下载其他文件，设置其他组件，修改命令或脚本来适应你自己的配置，或替换为你自己的例子...

2018-04-07 15:34:58 259

转载 Mark : Spark-Avro学习1之使用SparkSQL读取AVRO文件

更多Spark学习examples代码请见：https://github.com/xubo245/SparkLearning1.安装：[plain] view plain copy https://repo.maven.apache.org/maven2/com/databricks/spark-avro_2.10/2.0.1/ 导入到Spark项目里文件：[plain] view plain ...

2018-04-07 15:33:27 1338

转载 Mark : Avro与JAVA

我们已经接触过很多序列化框架（或者集成系统），比如protobuf、hessian、thrift等，它们各有优缺点以及各自的实用场景，Avro也是一个序列化框架，它的设计思想、编程模式都和thirft非常相似，也都是Apache的顶级项目。Avro还提供了RPC机制，可以不需要生成额外的API代码即可使用Avro来存储数据和RPC交互，“代码生成”是可选的，这一点区别于protobuf和thrif...

2018-04-07 15:32:22 201

转载 Mark : pache Avro 与 Thrift 比较

http://www.tbdata.org/archives/1307pache Avro 与 Thrift 比较Avro和Thrift都是跨语言，基于二进制的高性能的通讯中间件. 它们都提供了数据序列化的功能和RPC服务. 总体功能上类似，但是哲学不一样. Thrift出自Facebook用于后台各个服务间的通讯,Thrift的设计强调统一的编程接口的多语言通讯框架. Avro出自Hadoop之...

2018-04-07 15:31:02 107

转载 MARK ：Hive 的自定义 Inputformat

Hive默认创建的表字段分隔符为：\001(ctrl-A)，也可以通过 ROW FORMAT DELIMITED FIELDS TERMINATED BY 指定其他字符，但是该语法只支持单个字符，如果你的分隔符是多个字符，则需要你自定义InputFormat来实现，本文就以简单的示例演示多个字符作为分隔符的实现。[一]、开发环境Hadoop 2.2.0Hive 0.12.0Java1.6+Mac ...

2018-04-04 23:36:53 838

转载 mark : Hive中的InputFormat、OutputFormat与SerDe

Hive中的InputFormat、OutputFormat与SerDe1 Reply前言Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。首先来理清这三者之间的关系，我...

2018-04-04 22:45:23 299

转载 Hadoop中mapred包和mapreduce包的区别与联系

[java] view plain copypublic class MyJob extends Configured implements Tool { public static class MapClass extends MapReduceBase implements Mapper<Text, Text, Text, Text> {// ...

2018-04-04 21:58:31 624

tianyeshiye