2018年03月_haixwang

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创虚拟机\物理机上5台服务器cloudrea manager5.12大数据平台搭建（持续更新）

前言操作步骤VirtualBox5.2.8CentOS6.9节点网络配置ssh配置cloudera以及JDK以及Mysql版本选择【必读】其他注意事项JDK安装mysql5.7安装防火墙正题CDH集群安装其他虚拟机扩容TODO参考前言全文共1.4w字（仅安装整个大数据平台，关于cdh manager管理，会单独记录）。相比...

2018-03-31 22:35:07 2207

原创 SPA登录实现+JWT生成Token+cookie携带Token+代码

理论知识TokenJWT干货如何存储token，前后端如何用token进行“交流”总的思路之文字说明总的思路之流程图说明完整代码之token注意SPA单页面登录其他代码参考——————————————————-理论知识前言：本人承诺，本文是在查阅了大量资料并且实践了之后的用心写作。Token理论参考：SSO单点登录使用to...

2018-03-27 08:31:00 8786 1

原创我的大数据简略书单

推荐一些不错的大数据相关的书籍，有技术方面的，有架构方面的，也有业务方面的。除了最后两本书最近准备看，其他都是看过的。读书笔记都在有道云笔记里。有空再整理。还有些看过的书，比如《大数据导论》、《Spark快速大数据分析》等，没在推荐列。技术书籍：Hadoop：《Hadoop权威指南——第四版》Spark：《图解Spark核心技术与案列实战》（...

2018-03-22 21:30:38 3860

原创 HBase读写流程

读流程读流程概览详细叙述写流程写流程概览详细叙述参考读流程：读流程概览： 1.首先，客户端需要获知其想要读取的信息的Region的位置，这个时候，Client访问hbase上数据时并不需要Hmaster参与（HMaster仅仅维护着table和Region的元数据信息，负载很低），只需要访问zookeeper，从meta表获取相应region信息(地址和端口等)。【Client请求Z

2018-03-11 21:02:41 6480 3

转载 HBase原理–所有Region切分的细节都在这里了

转载自：http://developer.51cto.com/art/201708/549419.htm———————————————————- HBase系统中Region自动切分是如何实现的?这里面涉及很多知识点，比如Region切分的触发条件是什么?Region切分的切分点在哪里?如何切分才能最大的保证Region的可用...

2018-03-11 11:56:28 3779

原创 Hbase相关面试题

他人真实面试问题HBase的架构和基本原理HBase与传统关系型数据库如MySQL的区别读写性能对比读快还是写快Hbase的设计有什么心得Hbase的操作是用的什么API还是什么工具你们hbase里面是存一些什么数据知道spark怎么读hbase吗做过hbase的二级索引吗Hbase的PUT的一个过程以下是我自己想的问题描述一下Region切分的过程Hbase读取数据的流程

2018-03-11 11:44:33 14830

原创 linux中安装elasticsearch5.6.8及其组件/插件

windows安装elasticsearch5.6.8及其插件见：注：为了节约时间，这篇博客就只写操作，就不做过多解释了； windows中安装见： elasticsearch体验——在windows10上安装配置以及插件安装配置github上elasticsearch的doc链接 elastic上guide链接安装elasticsearch5.6.81.tar -zxvf elasticse

2018-03-09 10:17:56 3642 9

原创 elasticsearch体验——在windows10上安装配置以及插件安装配置

环境与版本安装步骤安装elasticsearch1.安装kibana2.安装head参考环境与版本操作系统：windows 10-1709 Elasticsearch 版本：5.6.8（考虑到6.x版本太新，往生产环境放的话，出现问题社区资料可能充足。版本太低又怕影响之后与hadoop集群的交互。） Java 版本：1.8.0_92 在方便wind...

2018-03-07 21:22:37 6345

转载 Spark RDD的默认分区数：（spark 2.1.0）

文章转载自：简书-我是亮哥：本文基于Spark 2.1.0版本新手首先要明白几个配置：spark.default.parallelism：（默认的并发数）如果配置文件spark-default.conf中没有显示的配置，则按照如下规则取值：1.本地模式（不会启动executor，由SparkSubmit进程生成指定数量的线程数来并发）： spark-shell...

2018-03-06 14:53:05 4138

什么是线程？线程是进程中的一个实体，是被系统独立调度和分派的基本单位，它被包含在进程之中，是进程中的实际运作单位。线程自己不拥有系统资源，只拥有一点儿在运行中必不可少的资源，但它可与同属一个进程的其它线程共享进程所拥有的全部资源。一个线程可以创建和撤消另一个线程，同一进程中的多个线程之间可以并发执行。线程也有就绪、阻塞和运行三种基本状态。我们通过多线程编程，能更高效的提高系统内多个程序间并发...

2018-03-01 21:01:40 10482 1

原创 Hadoop/Spark的shuffle面试题集合（一）

由于shuffle阶段涉及磁盘的读写和网络IO，因此shuffle性能的高低直接影响整个程序的性能和吞吐量。【注：毕竟有些东西我没有实际应用、经历，所以文中难免有错，还请各路大神多多指正！】1. spark的shuffle 是什么？过程？怎么调优？在MapReduce过程中需要将各个节点上的同一类数据汇集到一个节点进行计算。把这些分布在不同节点的数据按照一定规则聚集到一起的过程，...

2018-03-01 00:02:19 4043

Stream Processing with Apache Flink完整书签高清pdf和epub版，以及评价超高的Streaming Systems

保证完整，目前网上找个完整的不容易（2019-06-13）; Stream Processing with Apache Flink（Flink布道者）完整书签高清pdf以及epub; 以及评价超高的Streaming Systems(谷歌大脑Tyler Akidau) ; 以及18年10月Flink技术沙

2019-06-13

Flink Forward 201809 PPT berlin

2018年09月03日至05日在 Berlin 进行的 flink forward 会议上的PPT。这里共44个演讲的PPT，1000页左右PPT。资料来源于互联网，下载于“过往记忆”。

2018-10-03

TensorFlow实战PDF+代码，TensorFlow实战Google深度学习框架+代码

《TensorFlow实战》希望用简单易懂的语言带领大家探索TensorFlow（基于1.0版本API）。在《TensorFlow实战》中我们讲述了TensorFlow的基础原理，TF和其他框架的异同。并用具体的代码完整地实现了各种类型的深度神经网络：AutoEncoder、MLP、CNN（AlexNet，VGGNet，Inception Net，ResNet）、Word2Vec、RNN（LSTM，Bi-RNN）、Deep Reinforcement Learning(Policy Network、Value Network)。此外，《TensorFlow实战》还讲解了TensorBoard、多GPU并行、分布式并行、TF.Learn和其他TF.Contrib组件。《TensorFlow实战》希望能帮读者快速入门TensorFlow和深度学习，在工业界或者研究中快速地将想法落地为可实践的模型。购买地址：https://item.jd.com/12125568.html 《TensorFlow：实战Google深度学习框架》为使用TensorFlow深度学习框架的入门参考书，旨在帮助读者以更快、更有效的方式上手TensorFlow和深度学习。书中省略了深度学习繁琐的数学模型推导，从实际应用问题出发，通过具体的TensorFlow样例程序介绍如何使用深度学习解决这些问题。《TensorFlow：实战Google深度学习框架》包含了深度学习的入门知识和大量实践经验，是走进这个更新、更火的人工智能领域的推荐参考书。购买地址：https://item.jd.com/12125572.html

2017-09-19

李兴华oracle学习笔记（全）PDF

个人感觉李兴华老师的讲课风格和马士兵老师的风格很像，这个笔记是课堂上李兴华老师敲的，非常的详细。很适合平常查询以及复习用。不想花积分的朋友可以留言，我可以私发。

2017-02-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

王某的博客