2018年09月_liff_lee

原创 Java后端开发相关

Nginx负载均衡代理正向代理，是一个位于客户端和原始服务器之间的服务器，为了从原始服务器取得内容，客户端向代理发送请求并指定目标（原始服务器），然后代理向原始服务器转交请求并将获得的内容返回给客户端。正向代理的典型用途是为在防火墙内的局域网客户端提供访问Internet的途径。正向代理还可以使用缓冲特性（由mod_cache提供）减少网络使用率。使用ProxyRequests指令即可激活正...

2018-09-29 22:03:53 188

原创【hadoop学习笔记】---MapReduce

MapReduce介绍一个以高可靠，高容错方式编写程序并行的处理在大的集群上存储的大量的数据的软件框架，这些集群可以由通用的硬件组成。其对外提供了5个标准的可编程接口，InputFormat、Mappper、Partitioner、Reducer、OutputFormat。MapReduce架构采用master/slave架构，主要组成组件有：Client、JobTracker、T...

2018-09-28 22:21:44 790

原创【hadoop学习笔记】-----HDFS分布式文件系统

HDFS架构图HDFS特点：高容错；高吞吐量；在项目中处理大数据集；流式访问文件系统数据；可以构建在普通的硬件之上。采用master/slave架构，主要组成组件有：Client、NameNode、SecondaryNameNode、DataNode。（1）Client用户，通过与NameNode和DataNode交互访问HDFS中的文件，Client提供一个类似POSIX的文...

2018-09-27 15:48:07 215

原创【hadoop学习笔记】----HBase

HBaseHadoop DataBase，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统，利用hadoop MapReduce来处理HBase来处理HBase中的海量数据，利用Zookeeper作为协调工具。行键Row key主键用来检索记录的主键，...

2018-09-27 13:25:23 213

原创【hadoop学习笔记】------Hive

Hive是建立在Hadoop上的数据仓库基础框架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），可以使用HiveSQL这种类SQL语句对存储在HDFS上的数据进行查询分析；构建在Hadoop之上，提供对大数据的分析；Hive转换HiveSQL查询为标准的MapReduce jobs(MapReduce上的高度抽象)Hive系统架构提供用户接口，包括CLI，shell命令行，...

2018-09-27 13:16:52 321

原创【经典排序算法】---基于比较的排序算法

排序算法可以分为两类：非线性时间比较排序：通过比较来决定元素之间的相对次序，由于其时间复杂度不能突破O(nlogn)。线性时间非比较类排序：不通过比较来决定元素间的相对次序，它可以突破基于比较排序的时间下届，以线性时间运行。排序算法分类：非线性时间比较类排序交换排序：冒泡；快排；插入排序：简单插入排序；shell；选择排序：简单...

2018-09-26 19:06:20 3232

原创【hadoop学习笔记】----hadoop伪分布式环境配置

Hadoop2.6.0 伪分布式设置准备：首先将JDK（jdk1.8.0_121）和Hadoop（hadoop-2.6.0）安装包上传到虚拟机的linux系统系统环境：虚拟机IP 192.168.207.55(自己配置虚拟机NAT模式的IP)linux用户：root/password，hadoop/password主机名：hadoop将防火墙关闭，使用root执行：...

2018-09-20 15:10:51 229

原创【hadoop学习笔记】----hadoop入门以及部署方式介绍

什么是Hadoop?Hadoop是一个由Apache基金会开发的可靠的，可扩展的分布式计算的开源软件。其基于聚合的思想，将资源整合在一起用于海量数据额存储与处理。hadoop的核心HDFS：Hadoop Distributed File System分布式文件系统，解决海量数据的存储问题； MapReduce：分布式计算框架，解决海量数据的分析问题； YARN：Yet Anot...

2018-09-20 10:27:02 425

原创虚拟化技术

什么是虚拟化？虚拟化是基于划分的思想，通过虚拟化技术将一台计算机虚拟为多台逻辑计算机。在一台计算机上可以同时运行多个逻辑计算机，每个逻辑计算机可以运行不同的操作系统，并且应用程序都可以在相互独立的空间内运行而互不影响，从而显著提高计算机的工作效率。举例：5台服务器，8核CPU，32G内存，2T硬盘总资源40核CPU，160G内存，10T硬盘在总资...

2018-09-19 23:09:50 184

原创【机器学习基石笔记七】-----The VC Dimension（VC维数）

之前的几节着重介绍了机器学习可行的条件并做了详细的推导解释，机器学习可行必须满足两个条件：假设空间hypothesis sets的size M的大小有限，即当N足够大的时候，那么对于hypothesis sets中任意一个假设g，；利用演算法A从hypothesis sets中选一个函数g，是，则；这两个条件对应着test和train两个过程。train的目的是使损失期望，test的目的...

2018-09-11 23:18:37 10320

原创【机器学习基石笔记六】------Theory of Generalization（一般化理论---举一反三）

第五节主要讨论M的数值大小对机器学习的影响。如果M很大，那么就不能保证机器学习有很好的泛化能力，所以问题就转化为验证M有限，即最好按照多项式成长。然后通过引入了成长函数和dichotomy以及break point的概念。提出2D perceptrons的成长函数是多项式级别的猜想。以下探讨这个多项式的形成。Restriction of Break Point之前介绍的四种成长函数与bre...

2018-09-04 20:52:24 604

原创【机器学习基石笔记五】------Training versus Testing（训练与测试过程）

Recap and preview上节讲到机器学习的可行性，如果有足够的统计资料和有限的hypothesis，通过演算法无论选择什么样的，都会有；如果演算法A选择了一个hypothesis ，其中，根据PCA可以保证，可以说明机器学习是可行的。回顾之前的课程，其中第一节是说机器学习的定义是寻找一个最好的函数g，使得很接近理想的函数f，来保证；第二节课讲述在已知资料data上如何使，可...

2018-09-03 22:59:52 1804

原创【机器学习基石笔记四】-----Feasibility of learning（机器学习的可能性）

learing is impossible？看下面的例子，根据已有的例子对以下的问题进行分类根据是否对称分类：+1；根据左上角是否为黑色：-1；实际上还有各种各样的分类方法，它们的分类都是合理的。假设输入为三维向量，输出为二分类0或者1，根据已经知道的五个训练样本数据data，选择最好的函数g,预测其他三种对应的输出结果。对于这个问题，共有8中hypothesis，其中必须保证...

2018-09-02 16:13:40 770

原创【机器学习基石笔记三】----Types of learning(机器学习的类型)

根据输出分类：二元分类（Binary classification）多分类问题（Multiclass classification）回归分析（Regression）结构化学习（structured learning）different data label：监督式学习（supervised learning）无监督学习（unsupervised learning)：聚类...

2018-09-01 11:51:15 506

菜菜鸟的博客