自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 Phoenix常用命令 操作hbase

1、登录命令./sqlline.py localhost:2181:/hbase-unsecurephoenix-sqlline localhost:2181:/hbase-unsecure2、退出!quit!exit3、帮助4、列出metadata信息5、创建表create table if not exists ljc.stud...

2019-07-18 09:17:52 1156

转载 MongoDB数据库详解

原文转载地址:https://www.cnblogs.com/bananaaa/p/8204362.html优点:https://www.cnblogs.com/web-fusheng/p/6884712.html更高的写负载默认情况下,对比事务安全,MongoDB更关注高的插入速度。如果你需要加载大量低价值的业务数据,比如日志收集,那么MongoDB将很适合你的用例,但是必须避免在要...

2019-02-19 16:29:42 97

转载 线程池的介绍

原理篇:http://www.cnblogs.com/dolphin0520/p/3932921.html 场景篇:https://www.cnblogs.com/sachen/p/7401959.htmlnewCachedThreadPool:底层:返回ThreadPoolExecutor实例,corePoolSize为0;maximumPoolSize为Integer....

2019-01-25 16:56:23 81

转载 java线程编程-等待通知机制

原文地址:http://www.cnblogs.com/-new/p/7217844.html

2019-01-24 10:02:50 75

转载 分布式事务

原文地址:https://blog.csdn.net/congyihao/article/details/70195154

2019-01-16 15:52:33 67

转载 java。。。

https://www.cnblogs.com/chenssy/category/525010.html

2019-01-15 16:50:13 51

转载 微服务-springcloud

  原文地址:https://www.cnblogs.com/xiaojunbo/p/7090742.html微服务架构需要的功能或使用场景        1:我们把整个系统根据业务拆分成几个子系统。 2:每个子系统可以部署多个应用,多个应用之间使用负载均衡。 3:需要一个服务注册中心,所有的服务都在注册中心注册,负载均衡也是通过在注册中心注册的服务来使用一定策略来实现。 4:...

2019-01-15 15:57:32 61

转载 区块链-简单理解

作者:知乎用户链接:https://www.zhihu.com/question/37290469/answer/293890531来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。友情提醒:比特币采用区块链技术,但是区块链并不等同于比特币;全篇基于比特币底层区块链技术讲述,所以,部分模型可能不适用于以太坊等。另外,由于文章采用了一定的抽象、类举的叙事方式,中间或多或少...

2018-05-03 08:19:56 960

转载 Kafka(分布式发布-订阅消息系统)

一、简介Apache Kafka是分布式发布-订阅消息系统,在 kafka官网上对 kafka 的定义:一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。几种分布式系统消息系统的对比:推荐相关文章:各消息队列对比,Kafk...

2018-04-20 12:57:08 5052 1

转载 机器学习-层次聚类 hierarchical clustering

假设有N个待聚类的样本,对于层次聚类来说,步骤:       1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度;       2、寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个);       3、重新计算新生成的这个类与各个旧类之间的相似度;       4、重复2和3直到所有样本点都归为一类,结束     整个聚类过程其实是建立了一棵树...

2018-04-12 10:57:15 173

转载 机器学习-KNN和K-Means的区别

KNN和K-Means的区别

2018-04-12 10:37:06 768

转载 机器学习-LVQ

学习矢量量化(Learning Vector Quantization),简称LVQ,于1988年由Kohonen提出的一类用于模式分类的有监督学习算法,是一种结构简单、功能强大的有监督式神经网络分类方法。典型的学习矢量量化算法有LVQ1、LVQ2和LVQ3,其中前两种算法应用较为广泛,尤以LVQ2的应用最为广泛和有效。已经成功应用到统计学、模式识别、机器学习等多个领域。1、简介:学习矢量量化是一...

2018-04-12 10:08:51 4491

转载 机器学习-入门了解

本文的大纲:一,从机器学习问题角度分类二,从算法的功能角度分类三,机器学习算法决策树---------------------------一,从机器学习问题角度分类我们先从机器学习问题本身分类的角度来看,我们可以分成下列类型的算法。监督学习机器学习中有一大部分的问题属于监督学习的范畴,简单口语化地说明,这类问题中,给定的训练样本中,每个样本的输入x都对应一个确定的结果y,我们需要训练出一个模型(数...

2018-04-12 09:55:06 174

转载 机器学习-线性回归

1、Linear Regression可以说基本上是机器学习中最简单的模型了,但是实际上其地位很重要(计算简单、效果不错,在很多其他算法中也可以看到用LR作为一部分)。先来看一个小例子,给一个“线性回归是什么”的概念。图来自[2]。假设有一个房屋销售的数据如下: 面积(m^2) 销售价钱(万元) 123 250 150 320 ...

2018-04-11 11:22:32 152

转载 机器学习-随机森林

一、决策树决策树是机器学习最基本的模型,在不考虑其他复杂情况下,我们可以用一句话来描述决策树:如果得分大于等于60分,那么你及格了。这是一个最最简单的决策树的模型,我们把及格和没及格分别附上标签,及格(1),没及格(0),那么得到的决策树是这样的但是我们几乎不会让计算机做这么简单的工作,我们把情况变得复杂一点引用别的文章的一个例子这是一张女孩对于不同条件的男性是否会选择见面的统计表,图中是否见面作...

2018-04-11 10:54:07 267

转载 机器学习-朴素贝叶斯(Naive Bayes)

朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。该算法虽然简单,但是由于笔者不常用,总是看过即忘,这是写这篇博文的初衷。当然,更大的动力来在于跟大家交流,有论述不妥的地方欢迎指正。1.算法思想——基于概率的预测逻辑回归通过拟合曲线(或者学习超平面)实现分类,决策树通过寻找最佳划分特征进而学习样本路径实现分类...

2018-04-11 10:07:20 123

转载 机器学习-分类与回归

分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。 1.回归问题的应用场景 回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一...

2018-04-11 06:53:46 162

转载 机器学习-K近邻算法(KNN)

一.基本思想K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。如下面的图:  通俗一点来说,就是找最“邻近”的伙伴,通过这些伙伴的类别来看自己的类别。比如以性格和做过的事情为判断特征,和你最邻近的10个人中(这里暂且设k=10),有8个是医生,有2个是强盗。那么你是医生的可能性更加大,就把你划到...

2018-04-11 06:26:48 388

转载 jvminfo设置

参数名称 含义 默认值  -Xms 初始堆大小 物理内存的1/64(<1GB) 默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时,JVM就会增大堆直到-Xmx的最大限制.-Xmx 最大堆大小 物理内存的1/4(<1GB) 默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时,JVM会减少堆直到 -Xms的最小限制-Xmn 年轻代大小(1....

2018-03-08 08:47:22 269

转载 python正则表达式——re模块

尊重原创,原文地址:http://blog.csdn.net/u014683535/article/details/51872093                        http://blog.csdn.net/lisonglisonglisong/article/details/39697137本文所有的代码使用的python版本为python3.5.1

2017-12-21 13:37:59 304

转载 Python学习旅程

从Python菜鸟到Python Kaggler的旅程(译注:Kaggle是一个数据建模和数据分析竞赛平台)假如你想成为一个数据科学家,或者已经是数据科学家的你想扩展你的技能,那么你已经来对地方了。本文的目的就是给数据分析方面的Python新手提供一个完整的学习路径。该路径提供了你需要学习的利用Python进行数据分析的所有步骤的完整概述。如果你已经有一些相关的背景知识,或者你不需要路径中的所

2017-12-20 08:58:58 169

转载 HBase介绍

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系

2017-12-13 17:20:09 446

转载 zookeeper详解

ZooKeeper概述 原文地址:https://www.cnblogs.com/wuxl360/p/5817471.htmlZooKeeper是一种为分布式应用所设计的高可用、高性能且一致的开源协调服务,它提供了一项基本服务:分布式锁服务。由于ZooKeeper的开源特性,后来我们的开发者在分布式锁的基础上,摸索了出了其他的使用方法:配置维护、组服务、分布式消息队列、分布

2017-12-12 14:18:21 256

转载 ZooKeeper 原理及其在 Hadoop 和 HBase 中的应用

原文地址:http://blog.jobbole.com/110388/ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是Google Chubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeeper是一个开源的分布式

2017-12-12 09:38:25 129

转载 分布式消息系统:Kafka

Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。原文:http://blog.jobbole.com/75328/在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低

2017-12-11 16:48:43 4266

转载 ELK=Elasticsearch+Logstash+kibana

ELK:在一个典型的使用场景下(ELK):用Elasticsearch作为后台数据的存储,kibana用来前端的报表展示。Logstash在其过程中担任搬运工的角色,它为数据存储,报表查询和日志解析创建了一个功能强大的管道链。Logstash提供了多种多样的 input,filters,codecs和output组件,让使用者轻松实现强大的功能。

2017-12-11 16:00:00 128

转载 大数据处理模式 hadoop storm spark

对于仅需要批处理的工作负载,如果对时间不敏感,比其他解决方案实现成本更低的Hadoop将会是一个好选择。  对于仅需要流处理的工作负载,Storm可支持更广泛的语言并实现极低延迟的处理,但默认配置可能产生重复结果并且无法保证顺序。Samza与YARN和Kafka紧密集成可提供更大灵活性,更易用的多团队使用,以及更简单的复制和状态管理。  对于混合型工作负载,Spark可提供高速批处

2017-12-11 15:35:54 2557

转载 MapReduce详解

1.1 MapReduce是什么  Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。1.2 MapReduce做什么

2017-12-11 09:26:41 31153

转载 OVER函数介绍

开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化,举例如下:1:over后的写法:       over(order by salary) 按照salary排序进行累计,order by是个默认的开窗函数   over(partition by deptno)按照部门分区    over(partition by deptno order by

2017-02-17 16:59:02 8625 1

原创 oracle存储过程创建及调用

创建存储过程:create or replace procedure getweeksy(pdate IN VARCHAR2, v_OutputCode OUT VARCHAR2, v_OutPutMsg OUT VARCHAR2) ISs_date va

2016-12-28 17:02:53 481

转载 DataX介绍

一. DataX3.0概览DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新

2016-12-19 09:31:35 21943

转载 ORACLE日期时间函数

ORACLE日期时间函数大全   TO_DATE格式(以时间:2007-11-02   13:45:25为例)           Year:              yy two digits 两位年                显示值:07        yyy three digits 三位年                显示值:007        yyy

2016-12-13 09:15:33 290

转载 Twitter的分布式自增ID算法snowflake

原文地址:http://www.cnblogs.com/relucent/p/4955340.html概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而t

2016-11-09 16:31:38 639

转载 数据库设计注意事项

不考虑主备,集群等方案,基于业务上的设计主要是表结构及表间关系的设计。而关于表中字段主要是根据业务来进行定义,我们可以指定的大概有这么几项:存储引擎 一般用InnoDB,特殊需求特殊选用字符集和校验规则 特别说一下校验规则是指两个字符之间的比较规则, 比如A=a的话就是不区分大小写,会影响order by等。 bin一般是区分大小写的, 一般用general字段定义 字段怎么选

2016-11-09 15:53:53 406

转载 Apache安装与使用

以下为正文内容:一、Apache 的安装说明1、首先打开Apache官网,进入Windows版本的下载地址页面:http://archive.apache.org/dist/httpd/binaries/win32/    并选择2.2.22_no_ssl版本的msi安装包下载(高版本的截止到本文编写时还未官网还未提供msi安装包),如图:下载好就可以开始安装了

2016-11-07 12:21:00 790

转载 产品经理的介绍及提高

产品经理的诞生背景定义任何一个问题,不妨从它的背景开始讲起。自1927年,美国P&G(宝洁)公司出现第一名产品经理以来,产品经理的价值逐渐被市场认可,但其实那个时候的产品经理更像今天传统行业的品牌经理,负责产品的品牌建设、市场销售等几乎所有的事情,偏重于市场、商业端。随着互联网和移动互联网的普及发展,一波又一波的互联网、移动互联网、智能硬件、VR/AR等产品被推向了市场,还

2016-11-04 15:10:24 527

转载 阿里飞天云平台架构简介

原文地址:http://blog.csdn.net/yangcs2009/article/details/39292097飞天是由阿里云开发的一个大规模分布式计算系统,其中包括飞天内核和飞天开放服务。飞天内核负责管理数据中心Linux集群的物理资源,控制分布式程序运行, 隐藏下层故障恢复和数据冗余等细节,有效提供弹性计算和负载均衡。如图所示,飞天体系架构主要包含四大块:

2016-10-20 15:22:21 6837 1

转载 java编程细节

1.没有必要时请不用使用静态变量    使用Java的开发者都知道,当某个对象被定义为stataic变量所引用,这个对象所占有的内存将不会被回收。有时,开发者会将经常调用的对象或者变量定义为static,以便提高程序的运行性能。因此,不是常用到的对象或者变量,不要定义为static类型的变量,尤其是静态类对象的定义,一定要仔细考虑是否有必要。例如 public cla

2016-10-18 08:40:58 197

原创 mysql

1. binaryBINARY不是函数,是类型转换运算符,它用来强制它后面的字符串为一个二进制字符串,可以理解为在字符串比较的时候区分大小写。例如:select title from tjob where binary title like 'a%';2.group by with rollup在group by结果的最后一行,列出所有行的总和,如下,多了最后一行sel

2016-10-17 11:17:43 172

转载 PM及项目管理

原文地址:http://blog.csdn.net/cutesource/article/details/5448351原文地址:http://blog.csdn.net/cutesource/article/details/5685537在项目过程中,通过观察,感觉做好PM这个角色需要做好以下几点:对项目关键点的细节要足够了解虽然PM可以不参与具体的编码工

2016-10-17 09:46:00 1688

提示
确定要删除当前文章?
取消 删除