2018年03月_PeixinYe

原创 Pregel体系结构

在Pregel计算框架中，一个大型图会被划分成许多个分区，每个分区都包含了一部分顶点以及以其为起点的边一个顶点应该被分配到哪个分区上，是由一个函数决定的，系统默认函数为hash(ID) mod N，其中，N为所有分区总数，ID是这个顶点的标识符；当然，用户也可以自己定义这个函数这样，无论在哪台机器上，都可以简单根据顶点ID判断出该顶点属于哪个分区，即使该顶点可能已经不存在了容错性：Pregel采用...

2018-03-26 20:35:43 2162

原创图计算其他补充------学习笔记

消息传递：顶点之间的通讯是借助于消息传递机制来实现的，每条消息都包含了消息值和需要到达的目标顶点ID。用户可以通过Vertex类的模板参数来设定消息值的数据类型在一个超步S中，一个顶点可以发送任意数量的消息，这些消息将在下一个超步（S+1）中被其他顶点接收一个顶点V通过与之关联的出射边向外发送消息，并且，消息要到达的目标顶点并不一定是与顶点V相邻的顶点，一个消息可以连续经过多条连通的边到达某个与顶...

2018-03-26 20:28:43 569

原创 Pregel图计算模型--------学习笔记

Pregel计算模型以有向图作为输入有向图的每个顶点都有一个String类型的顶点ID每个顶点都有一个可修改的用户自定义值与之关联每条有向边都和其源顶点关联，并记录了其目标顶点ID边上有一个可修改的用户自定义值与之关联边上有一个可修改的用户自定义值String类型的顶点ID可修改的用户自定义值在每个超步S中，图中的所有顶点都会并行执行相同的用户自定义函数每个顶点可以接收前一个超步(S-1)中发送给...

2018-03-26 20:23:41 2682

原创图计算-----学习笔记

特点：数据关联性强；常常表现出比较差的内存访问局部性针对单个顶点的处理工作过少计算过程中伴随着并行度的改变大型图计算主要包括两种：基于遍历算法的、实时的图数据库，如Neo4j、OrientDB、DEX和 Infinite Graph；以图顶点为中心的、基于消息传递批处理的并行引擎，如GoldenOrb、Giraph、Pregel和Hama，这些图处理软件主要是基于BSP模型实现的并行图处理系统；B...

2018-03-26 20:18:12 1309

原创 Samza框架-----学习笔记

基本概念：作业：是对一组输入流进行处理转化成输出流的程序。分区：Samza的流数据单位既不是Storm中的元组，也不是Spark Streaming中的DStream，而是一条条消息；Samza中的每个流都被分割成一个或多个分区，对于流里的每一个分区而言，都是一个有序的消息序列，后续到达的消息会根据一定规则被追加到其中一个分区里；任务：一个作业会被进一步分割成多个任务（Task）来执行，其中，每个...

2018-03-23 20:59:40 1090

原创 Spark Streaming总结-----学习笔记

支持多种数据源：Kafka、Flume、HDFS、普通TCP套接字等；基本原理：实时输入数据流以时间片（秒级）为单位进行拆分，然后经Spark引擎以类似批处理的方式处理每个时间片数据；Spark Streaming最主要的抽象是DStream（Discretized Stream，离散化数据流），表示连续不断的数据流。在内部实现上，Spark Streaming的输入数据按照时间片（如1秒）分成一...

2018-03-23 20:51:33 558

原创 Storm流数据框架------学习笔记

storm：Storm可用于许多领域中，如实时分析、在线机器学习、持续计算、远程RPC、数据提取加载转换等Storm具有以下主要特点：整合性简易的API可扩展性可靠的消息处理支持各种编程语言快速部署免费、开源storm主要包括：Streams、Spouts、Bolts、Topology和Stream Groupings；stream：Storm将流数据Stream描述成一个无限的Tuple序列，这...

2018-03-23 20:42:48 1214

原创流数据------学习笔记

流数据特点：实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息快速持续到达；来源多，格式复杂；数据量大，但不关心存储；注重整体价值；顺序颠倒或不完整；数据的价值随着时间的流逝而降低；流计算系统要求：高性能海量式实时性分布式易用性可靠性流计算框架：商业级：IBM InfoSphere Streams；IBM StramBase（用于银行）；开源流计算框架：Twitter Storm...

2018-03-23 19:12:14 3948

原创 Spark SQL------学习笔记

Hive：转换成MapReduce作业；Shark：转换成spark作业；Hive中SQL查询的MapReduce作业转化过程Spark三种部署方式：Standalone；Spark on Mesos（官方推荐，更好支持）；Spark on YARN；Hadoop+Storm：Spark Straming无法实现毫秒级流计算响应；（需要Storm）不同的计算框架统一运行在YARN中，可以带来如下好...

2018-03-23 14:19:12 235

原创 RDD运行原理------学习笔记

RDD实现管道化，避免中间数据存储；RDD：是一个分布式对象集合，本质上是一个只读的分区记录集合，每个RDD可分成多个分区，每个分区就是一个数据集片段，并且一个RDD的不同分区可以被保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算；转换（Transformation）：map、join、groupby、filter等；粗粒度修改；不适合网页爬虫；实际上RDD已经被实践证明可以高效...

2018-03-23 14:11:55 1578

原创 Spark运行基本流程-----学习笔记

1、首先构建基本运行环境：Driver创建一个SparkContext，进行资源的申请、任务的分配和控制；（Shell中不需要构建，系统会自动生成一个SC）2、资源管理器为Executor分配资源，并启动Executor进程；3、SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskSch...

2018-03-23 13:59:20 811

原创 Spark运行架构------学习笔记

基本概念：RDD：是Resillient Distributed Dataset（弹性分布式数据集）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行TaskApplication：用户编写的Spark应...

2018-03-23 13:39:59 404

原创 Spark概述-------学习笔记

Spark特点：运行速度快：使用DAG执行引擎以支持循环数据流与内存计算；容易使用：支持使用Scala、Java、Python和R语言进行编程，可以通过Spark Shell进行交互式编程通用性：Spark提供了完整而强大的技术栈，（基于内存计算spark core)，包括SQL查询、流式计算(spark straming)、机器学习(spark MLlib)和图算法组件(spark graph...

2018-03-23 11:42:28 706

原创中国人寿面试总结

套路深，当面试官准备走的时候我才明白该说服谁。。当你需要一个人帮助的时候，他拒绝了你，你不应该放弃转身就走，应该仔细思考如何才能让他答应你的请求，应该从对方的角度去分析为什么要这样做，这样做的益处是什么；说服应该循序渐进，消除对方抗拒心理，告诉对方你会怎么做，慢慢引导；好了，就这么多了，领教了受教了，人寿一日游收获还是很大的。...

2018-03-21 13:17:12 4714

转载凯利公式-----应用

作者：贾元宏链接：https://www.zhihu.com/question/23534782/answer/108093123来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。凯利公式：f=（bp-q）/b，也即=p-q/b，（p为胜率，q为赔率，b为赔率）关于凯利公式的应用必要条件以及应用场景，我通过问答来逐步论证：（以下投资的仓位分析中假设不载考虑市场属性的问题...

2018-03-19 17:26:29 22178 2

原创 CTVE笔试2018总结C/C++

编程题：猴子爬山、str1、str2、str3混序匹配；3次握手，4次挥手；sizeof（）；strlen（）；锁相关内容；int，float，char字节数大小；.........其他想不起来了。。最不该的是编程题这个居然忘了。。内容知识比较广，有难有简单的，可惜没复习，也没准备好，基础还需扎牢。。...

2018-03-18 21:54:45 409

原创原始积累方法----总结

1、小型贸易：“先找厕所，再找食堂”，做个中介；2、推销图纸样机或技术，利用定金赚时间差；3、用知识或技术找中小国企合作；4、带别人样品去推销；...

2018-03-18 14:56:13 409

原创投资性房地产注意事项

1、GDP与房价；2、小城市与大城市区别：大城市：人口迁移和经济活力；小城市：政策性机遇（长期不如大城市）；3、未来5~7年总体机会不大（可能吧，也可能是没大机会）；4、地产投资逻辑与证券相似；...

2018-03-16 21:53:21 899

原创 Impala简介------学习笔记

Impala是由Cloudera公司开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase上的PB级大数据，在性能上比Hive高出3~30倍Impala的运行需要依赖于Hive的元数据Impala是参照 Dremel系统进行设计的Impala采用了与商用并行关系数据库类似的分布式查询引擎，可以直接与HDFS和HBase进行交互查询Impala和Hive采用相同的SQL...

2018-03-16 21:40:13 647

原创 Hive中SQL查询转MapReduce作业过程------学习笔记

说明：当启动MapReduce程序时，Hive本身是不会生成MapReduce算法程序的需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块Hive通过和JobTracker通信来初始化MapReduce任务，不必直接部署在JobTracker所在的管理节点上执行通常在大型集群上，会有专门的网关机来部署Hive工具。网关机的作用主要是远程操作和管理节...

2018-03-16 21:28:43 1862

原创 Hive概述----学习笔记

数据仓库：数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策。（水平）横向扩展：增加节点；（垂直）纵向扩展：增加节点能力；Hive是一个构建于Hadoop顶层的数据仓库工具支持大规模数据存储、分析，具有良好的可扩展性...

2018-03-16 21:25:53 237

原创 Reduce端的Shuffle过程------学习笔记

步骤：1、Reduce任务通过RPC想JobTracker询问Map任务是否完成，完成则取走；2、将数据放在缓存，先归并，再合并，写入磁盘；3、溢写文件归并，文件中的键值对是排序的；（当数据很少时，不需要溢写到磁盘，直接在缓存中归并，然后输出给Reduce）...

2018-03-16 16:39:45 1289

原创 Map端的Shuffle过程------学习笔记

、合并（combine）与归并（Merge）区别：两个键值对<“a”,1>和<“a”,1>，如果合并，会得到<“a”,2>，如果归并，会得到<“a”,<1,1>>；图第一步内容：每个Map任务分配一个缓存MapReduce默认100MB缓存图第二步的内容：设置溢写比例0.8 ：保证不丢失可持续运行；图第三步内容：分区默认采用哈希函数排序...

2018-03-16 16:33:06 2509

原创 MapReduce工作流程------学习笔记

1、不同的Map任务之间不会进行通信2、不同的Reduce任务之间也不会发生任何信息交换3、用户不能显式地从一台机器向另一台机器发送消息4、所有的数据交换都是通过MapReduce框架自身去实现的各个执行阶段：HDFS 以固定大小的block 为基本单位存储数据，而对于MapReduce 而言，其处理单位是split。split 是一个逻辑概念，它只包含一些元数据信息，比如数据起始位置、数据长度、...

2018-03-16 16:23:11 1745

原创 MapReduce概述和体系结构----学习笔记

传统并行计算框架和MapReduce对比：高度抽象为两个函数：map函数和Reduce函数；策略：分而治之（即：任务结果不依赖其他计算结果）；理念：计算向数据靠拢，而不是数据向计算靠拢；因为：大数据传输开销巨大；Split（分片）：一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理；架构：Master/Slave架构；Master...

2018-03-16 16:13:41 2046

原创 emmmm，昨天去面试今天补更（今天6更，高不高兴，意不意外）

RT;

2018-03-16 11:23:56 204

原创构建HBase二级索引和工具----学习笔记

HBase只针对行键索引，访问HBase表中的行只用三种方式；（原生产品中）行键访问；行键区间访问；全表扫描；其他产品：Hindex二级索引HBase+RedisHBase+solrCoprocessor构建二级索引；Coprocessor提供了两个实现：endpoint和observer，endpoint相当于关系型数据库的存储过程，而observer则相当于触发器observer允许我们在记录...

2018-03-14 14:40:02 772 1

原创 HBase优化和工具-----学习笔记

性能优化：1、Row Key：将最近可能被访问的数据放在一起；Long.MAX_VALUE - timestamp作为行键；2、InMemory：相关数据放在缓存中，实时性高；创建表的时候，设置HColumnDescriptor.setInMemory(true)；3、Max Version：节约存储空间；创建表的时候，设置HColumnDescriptor.setMaxVersions(int ...

2018-03-14 14:31:49 273

原创 HBase系统架构---学习笔记

1、客户端：本地存储已访问过的Region位置信息，加快访问；2、ZooKeeper服务器：协调管理集群，避免单点失效，提供配置服务、域名服务、分布式同步、组服务等；3、Master服务器：负责表和Region管理；4、region服务器：维护Region，响应用户读写；Region服务器工作原理：Region服务器；Region；HLog；MemStore；StoreFile；用户读写过程：用户...

2018-03-14 13:48:07 373 1

原创 HBase概述

HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库；主要用来存储非结构化数据和半结构化的松散数据；HBase与传统关系型数据库区别：1、数据类型：结构类型简单，未经解释的字符串；2、数据操作：不存在复杂的表与表之间的关系；（无多表连接等）3、存储模式：列式存储；（适合分析型，不适合事务型）4、数据索引：只有行键，及其衍生品；5、数据维护：新建而非替代原文件；6、可伸缩性：灵活水平扩展；H...

2018-03-13 15:55:46 435

原创 HDFS分布式文件系统学习总结

结构：主从结构（Master/slave）名称节点/数据节点；缺点：不适合低延时数据访问；无法高效存储大量小文件；不支持并发写及任意修改文件；NN：存储元数据；元数据保存在内存中；保存文件，block，DN之间的映射关系；DN：存储文件内容；文件内容保存在磁盘中；维护block ID到DN本地文件的映射关系；NN数据结构：FSImage：用于维护文件系统树以及文件树中所有的文件和文件夹的元数据；E...

2018-03-13 13:14:10 1251

原创 Hadoop知识概要

Hadoop是一个对大量数据分布式并行处理的框架；属于数据密集型框架；特性：高可靠：由于多副本备份机制，一般3份，可以在hdfs.site.xml中修改备份数；高效性：由于分布式计算，多节点并行处理；高可扩展性：由框架决定；另外NN federation有更好的扩展性；成本低、高容错：不解释，大家都懂；Hadoop应用架构（企业中）：Hadoop组件说明：安装配置主要步骤有：修改主机名；设置SSH...

2018-03-12 17:33:48 376

转载 Hadoop配置文件

配置文件：core-site.xmlhadoop.tmp.dir表示存放临时数据的目录，即包括NameNode的数据，也包括DataNode的数据。该路径任意指定，只要实际存在该文件夹即可；name为fs.defaultFS的值，表示hdfs路径的逻辑名称；配置文件：hdfs-site.xmldfs.replication表示副本的数量；dfs.namenode.name.dir表示本地磁盘目录，...

2018-03-12 17:32:52 1106

转载 hadoop集群完整架构及设计

博主未经转载，所以只能给个链接了，转载地址：http://blog.csdn.net/quwenzhe/article/details/53905572一图解千愁。。

2018-03-12 16:40:39 3066

转载 CSS背景图片的应用

可简写：如：body{background: #f00 url(../img/bg1.jpg) no-repeat fixed 30% 30%}属性描述background简写属性，作用是将背景属性设置在一个声明中。background-attachment背景图像是否固定或者随着页面的其余部分滚动。background-color设置元素的背景颜色。background-image把图像设置为背...

2018-03-11 12:45:26 354

原创 CSS背景图的应用实例

CSS文件：body{background-image: url(../img/bg1.jpg);}p.pictrue{background-image: url(../img/bg2.jpg);}h1.z{background-image: url(../img/bg3.jpg);}html文件：<!DOCTYPE html><html> <head> &l...

2018-03-11 11:40:52 1090

转载厦门大学大数据技术原理与应用-林子雨博士

厦门大学林子雨教授-大数据技术原理与应用教程转载地址：http://dblab.xmu.edu.cn/post/bigdata-online-course/#lesson2友情提示：对于初学者相当有用哦，千万别错过了！！在此感谢林博士分享知识。Spark教学地址：转载地址：http://blog.csdn.net/a925907195/article/details/76460999...

2018-03-11 11:06:09 3216

转载 CSS样式学习

转载地址：http://www.w3school.com.cn/css/css_syntax_id_selector.asp

2018-03-10 15:53:06 200

原创杭电ACM 第2099题

#include<iostream>#include<math.h>#include<stdlib.h>#include<string>using namespace std;void main(){ long int a,b; while(cin>>a>>b){ if(a==0&am...

2018-03-10 15:47:56 359

原创杭电ACM 第2098题

#include<iostream>#include<stdlib.h>#include<math.h>using namespace std;void main(){ int n; int s[10000]; s[0]=2; s[1]=3; int z=2; for(int i=4;i<10000...

2018-03-10 15:47:21 408

空空如也

空空如也