CxCo-CSDN博客

转载重要的不只是技术

原创：王健（一）多年以前，我有个学生在一家做“工作流引擎”的软件小公司里工作。他遇到了一些麻烦。什么是“工作流引擎”？简单地说，是一种可以自动执行流程的工作元件：使用者设置好基本的参数，该元件就能按照预先设定的工作步骤和业务的流程往下走。听起来很酷，看上去很美。学生的麻烦是：公司的产品做得歪瓜劣枣的，开发人员不够，人员参差不齐。总的说来，技术问题很多，公司也不太重视。他来问我他该怎么办。我说：其实，这不是技术的问题。而是在于以公司这样的实力进入这样的...

2021-02-25 10:48:46 224

原创【K8S学习】Virtual Cluster：基于集群视图的 K8S 多租户机制

虚拟集群的优势：带来更强的租户隔离性与安全性。这是因为新机制避免了因多租户用户共享同一K8s主节点而导致的某些问题。例如DoS攻击、各租户间API访问速率控制、以及租户控制器隔离等等。允许租户用户在租户主节点当中创建集群范围对象，且不会影响到其他租户。例如，租户用户现在可以在租户主机中自由创建CRD、ClusterRole/ClusterRoleBinding、PersistentVolume、ResourceQuota、ServiceAccount以及NetworkPolicy，而不必

2021-01-17 15:52:06 889

转载 C中static变量

静态变量，就是在定义的时候，有static 修饰的变量，形式为static TYPE var_name = init_value;而动态变量，形式为TYPE var_name = init_value;即没有static 修饰。其中的=init_value均可省略。区分定义在函数外的全局变量，和函数内的局部变量，作用域，生命周期，及无显式初始化时的初始值，均有区别。1 动态全局变量：

2016-10-02 15:01:34 779

转载 POJ的DP题

※最近更新：Poj斜率优化题目1180，2018，3709 列表一：经典题目题号：容易： 1018, 1050, 1083, 1088, 1125, 1143, 1157, 1163, 1178, 1179, 1189, 1191,1208, 1276, 1322, 1414, 1456, 1458, 1609, 1644, 1664, 1690, 1699

2016-08-27 23:29:04 772

转载 Talking R through Java

Talking R through JavaFEBRUARY 20TH, 2011Today I played a bit with JRI as part of rJava, a Java-R-interface. Here you can learn how to setup for Debian/Ubuntu/akins.InstallationAssum

2016-06-24 18:16:03 607

原创 Spark on yarn CapacityScheduler中的ResourceCalculator（资源计算器）

首先，是一个实际的问题（为了方便描述考虑一个简单的情况）：在spark on yarn上面进行资源申请，我们申请了10个container(每个container都是1G内存，1个core)，这是集群中有一个nodemanager，有10G内存，5个core。在默认配置情况下，yarn就有可能将这10个container都发送到这个nodemanager上（即使集群上还有其他nod

2016-04-08 18:02:58 4063

原创 spark1.6统一内存管理(UnifiedMemoryManager)

从spark1.6开始，引入了新的内存管理方式-----统一内存管理(UnifiedMemoryManager)。在统一内存管理下，spark一个executor中的jvm heap内存被划分成如下图:在开始介绍图中各个部分之前，我们先明确一个概念（我还是以我熟悉spark on yarn来介绍），我们在为Executor申请内存的时候，实际是JVM 的堆(heap)内存。而JVM

2016-04-07 17:08:18 2176

原创 spark on yarn 中的延迟调度(delay scheduler)

延迟调度算法思想十分简单，为了实现data locality(即该task所需数据就在其运行的机器上)，会尽量将task分布到有其所需数据的机器或者jvm中去，如果机器或者jvm已被占用就进行延迟等待，直到该机器或者jvm可以运行该task或者超过等待时限则将task运行到其他机器上。这个想法基于以下几点:1.往往数据比程序要大得多，分布式上处理的数据都是GB为单位的，将程序放到数据所在机

2016-04-07 12:03:01 9173

原创 hive sql 问题集(不断更新)

1.problem：hive sql ： drop table A，当重新create table A，发现table A中是有数据的，就是drop前A表中原来的数据。solution：当我们drop table的时候，hive会把table的metadata删除掉，但是table的数据文件在移到垃圾桶中可能会失败（这个失败并不会告诉我们）。这个时候，我们就需要检查hadoop f

2016-03-18 17:23:25 607

转载 Spark on Yarn可能遇到的问题

1 概述 Spark的on Yarn模式，其资源分配是交给Yarn的ResourceManager来进行管理的，但是目前的Spark版本，Application日志的查看，只能通过Yarn的yarn logs命令实现。在部署和运行Spark Application的过程中，如果不注意一些小的细节，也许会导致一些问题的出现。2 防火墙部署好Spa

2016-03-18 11:32:59 2484

原创理解Spark - RDD(Resilient Distriuted Datasets)

1.简介RDD(Resilient Distributed Datasets)弹性分布式数据集是Spark中的抽象计算模型，相当与Hadoop中的MapReduce模型。相较与传统的分布式计算模型没有很好的利用分布式的内存，而RDD是一种能在分布式下进行内存计算的模型，并且具有很好的容错性。在分布式迭代计算以及交互式的数据挖掘等算法上（这些算法的特点是，计算中产生的结果会被频繁的重复使用），

2016-03-04 17:01:40 709

转载 the difference between imperative style and functional style

突然直接明白了他们的含义。所谓命令式编程，是以命令为主的，给机器提供一条又一条的命令序列让其原封不动的执行。程序执行的效率取决于执行命令的数量。因此才会出现大O表示法等等表示时间空间复杂度的符号。而函数式语言并不是通常意义上理解的“通过函数的变换进行编程”。注意到纯的函数式语言中是没有变量的（没有可以改变的东西，所有的东西在定义以后就都是不变的），那么这样的东西有什么好处呢？就比如

2016-02-25 12:49:59 743

转载 Scala implicit

implicit基本含义原文地：http://www.cnblogs.com/rollenholt/p/4118567.html在Scala中有一个关键字是implicit，之前一直不知道这个货是干什么的，今天整理了一下。我们先来看一个例子：def display(input:String):Unit = println(input)我们可以看到，disp

2016-01-21 16:21:43 646

转载 Scala中的None,Nothing,Null,Nil

在scala中这四个类型名称很类似，作用确实完全不同的。 None是一个object，是Option的子类型，定义如下 [java] view plaincopyprint?case object None extends Option[Nothing] { def isEmpty = true def get = thr

2016-01-20 15:53:17 946

转载 mesos与yarn简要介绍

Mesos是一个开源的资源管理系统，可以对集群中的资源做弹性管理，目前twitter, apple等公司在大量使用mesos管理集群资源，大家记得apple的siri吗，它的后端便是采用的mesos进行资源管理（自行在网上查找文章：“新一代Siri后端将采用开放源代码平台Mesos”）。国内也有零零散散的公司在使用mesos，比如豆瓣。Mesos是高仿google内部的资源管理系统

2016-01-12 11:51:30 1874

翻译关于Storm与JStorm的调度算法的讨论

简介Storm有4个调度器(defaultScheduler/IsolationScheduler/MultitenantScheduler/RAS),Jstorm只有一个调度器，但是其拥有4种模式(defaultScheduler/IsolationScheduler/User-defined Scheduler/The last Scheduler)。默认调度算法（Defaul

2015-12-30 14:28:27 3840

原创 Jstorm与Storm中的并行度区分

关于Storm中的并行度的问题，建议大家看看Storm的官网：http://storm.apache.org/documentation/Understanding-the-parallelism-of-a-Storm-topology.html （当然，我在博客中也翻译了这一篇文章）在storm中负责运行topology，主要用到了3个东西：worker（进程）、executor（线程）、t

2015-12-29 16:13:58 3132

转载理解Java ClassLoader机制

当JVM（Java虚拟机）启动时，会形成由三个类加载器组成的初始类加载器层次结构： bootstrap classloader | extension classloader | system classloaderbootstrap classloader －引导（也称

2015-12-15 16:48:58 481

转载基于KNN的相关内容推荐

如果做网站的内容运营，相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息，从而提升网站内容浏览的流畅性，进而提升网站的价值转化。相关内容推荐最常见的两块就是“关联推荐”和“相关内容推荐”，关联推荐就是我们常说的购物篮分析，即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系，之前有相关的文章介绍——向上营销、交叉营销与关联推荐；关联推荐是基于用户行为分析的推荐，而相关内容推荐是基

2015-12-02 12:06:07 1822

转载距离和相似度度量

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。　　为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1, x2,

2015-12-02 11:56:47 877

转载 Hbase技术介绍

原文地址：http://www.searchtb.com/2011/01/understanding-hbase.htmlHBase简介HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现，类似Go

2015-11-26 17:59:38 503

原创 storm中使用jdbc向mysql进行批量插入的坑

本次在storm中进行jdbc批量insert的时候，jdbc使用了executebatch进行批量插入，老是报statement cancelled due to timeout or client request错误，因为插入的数据量比较大。（默认超时为30s）但是在本地自己测试往耗时是8秒。。。。最后，找到了问题所在。jdbc url配置的时候需要设置rewriteBatch

2015-11-18 16:23:50 5361

转载推荐系统初识

1. 前言随着互联网技术和社会化网络的发展，每天有大量包括博客，图片，视频，微博等等的信息发布到网上。传统的搜索技术已经不能满足用户对信息发现的需求，原因有多种，可能是用户很难用合适的关键词来描述自己的需求，也可能用户需要更加符合他们兴趣和喜好的结果，又或是用户无法对自己未知而又可能感兴趣的信息做出描述。推荐引擎的出现，可以帮用户获取更丰富，更符合个人口味和更加有意义的信息。个

2015-10-23 11:40:40 848

翻译 Storm与JDBC整合

Storm JDBC包含了核心的bolts以及trident states可以使storm topology即能对一个数据库表插入storm tuples又能对数据库进行查询操作，并且丰富了tuple的作用。注意：在下面的例子中，我们使用了 com.google.common.collect.Lists和com.google.common.collect.Maps.对数据库进行插入操作

2015-10-14 18:36:23 8873

翻译理解Storm Topology的并发机制

运行时topology的组成：worker processes、executors(执行者线程)以及tasksStorm区分了以下三个主要的实体并用来在Storm集群上运行起一个topology:1.Worker processes2.Executors(线程)3.Tasks下面是这3者关系的一个简单示例:一个worker process负责执行topology的部

2015-10-14 14:26:25 2527

翻译 storm配置概览

Storm拥有多种配置来调整nimbus,supervisors的行为以及运行topologies。其中有些属于系统配置，我们无法在topology层面上进行更改(就是说有些系统配置我们是不能通过代码来改的)，其他的一些配置我们则可以通过在每个topology中调用相应的接口来设置。每个配置通过defaults.yaml设置默认值。我们可以通过在Nimbus以及supervisors中的cla

2015-10-14 11:19:32 556

翻译 Storm Trident

Trident是一个用来在storm上进行实时计算的高层抽象。它将使我们能够以延迟极低的分布式查询无缝的融合超大流量以及状态流处理。如果你对Pig或者Cascading这种的高层批处理工具很熟悉，那么Trident的概念就很容易理解了----Tridet拥有joins（连接）、aggregations（汇聚）、grouping（分组）、functions（函数）以及filters（过滤器）。除了这

2015-10-13 17:11:36 824

翻译 Guaranteeing Message Processing(storm 消息处理保证机制)

Storm保证spout发出来的每条消息都会被完全的处理。这篇文章描述了Storm是如何实现这一保证机制的以及作为一个storm的使用者我们如何从storm的这种可靠性中获益。消息被"完整处理"的含义由spout发出来的一个tuple（元组）会触发下游更多的tuple的生成。让我们看你这个流单词计数的topology:TopologyBuilder builder = new

2015-10-12 17:34:27 1556

翻译 Storm Distributed RPC（DRPC）分布式远程过程调用

DRPC的主要作用就是利用Storm来完成那些计算密集型函数（CPU密集型函数）的实时并行计算。对于每一次函数调用，Storm topology将函数的参数当成是输入流，并且将函数运行的结果作为输出流。总体概览DRPC通过一个"DRPC server"来进行协调均衡。（Storm整合了DRPC server的一个实现）。DRPC server接受一个RPC请求，发送该请求给Storm to

2015-10-10 19:00:43 5246

翻译 storm初识

Storm集群的组成strom集群与hadoop集群表面上看还是很相似的。例如：在hadoop上你运行"MapReduce jobs",而在storm上运行的是"topologies"。"Jobs"和"topologies"是不一样的--一个主要的差别就是MapReduce job最终会运行完成并结束，而topology将会不停的运转来处理源源不断的流数据。（除非我们手动的kill进程，否则t

2015-10-10 14:13:52 585

原创 PCA(Principal Components Analysis)主成分分析

本文简单介绍了 PCA(Principal Components Analysis)主成分分析的思想，以及推导。

2015-08-17 01:12:41 935

转载 python中的map、filter、reduce函数

三个函数比较类似，都是应用于序列的内置函数。常见的序列包括list、tuple、str。转自：http://blog.sina.com.cn/s/blog_45ac0d0a010191rb.html1.map函数map函数会根据提供的函数对指定序列做映射。map函数的定义：map(function, sequence[, sequence, ...]) -> list通过定

2015-08-15 23:39:53 515

原创 python Image模块安装

我的系统是mac os x yosemite 10.10一、下载源码包http://www.pythonware.com/products/pil/index.htm 下载最新版的PIL安装程序，我下载的是tar xfz Imaging-1.1.7.tar.gzhttp://www.ijg.org 最新的版本是jpegsrc.v9a.tar.gz，安装jpeg库

2015-08-15 16:13:17 13968

转载 Python补充05 字符串格式化 (%操作符)

Python补充05 字符串格式化 (%操作符)作者：Vamei 出处：http://www.cnblogs.com/vamei 欢迎转载，也请保留这段声明。谢谢！在许多编程语言中都包含有格式化字符串的功能，比如C和Fortran语言中的格式化输入输出。Python中内置有对字符串进行格式化的操作%。模板格式化字符串时，Python使用一个字符串作为

2015-08-11 19:48:32 497

转载 python 详解re模块

正则表达式的元字符有. ^ $ * ? { [ ] | ( )．表示任意字符［］用来匹配一个指定的字符类别，所谓的字符类别就是你想匹配的一个字符集，对于字符集中的字符可以理解成或的关系。^ 如果放在字符串的开头，则表示取非的意思。[^5]表示除了5之外的其他字符。而如果^不在字符串的开头，则表示它本身。具有重复功能的元字符：* 对于前一个字符重复0到无穷次对于前一个字符

2015-08-11 19:41:21 1415

原创 logistic回归与牛顿方法的python实现（standford公开课程小作业）

#coding=utf-8#文件开头加上、上面的注释。不然中文注释报错#第一个自己学的机器学习算法、我目前只给出自己写的代码、注释较多。关于logistic regression和牛顿方法的概念，这里就不给出了。from numpy import *from math import *import operatorimport matplotlibimport matplotlib

2015-08-03 21:41:33 4293 1

转载 numpy中的ndarray方法和属性

原文地址NumPy数组的维数称为秩（rank），一维数组的秩为1，二维数组的秩为2，以此类推。在NumPy中，每一个线性的数组称为是一个轴（axes），秩其实是描述轴的数量。比如说，二维数组相当于是一个一维数组，而这个一维数组中每个元素又是一个一维数组。所以这个一维数组就是NumPy中的轴（axes），而轴的数量——秩，就是数组的维数。Numpy库中的矩阵模块为ndarray对象，

2015-08-03 12:55:17 123116

转载 Numpy中矩阵对象（matrix）

原文地址numpy模块中的矩阵对象为numpy.matrix，包括矩阵数据的处理，矩阵的计算，以及基本的统计功能，转置，可逆性等等，包括对复数的处理，均在matrix对象中。 class numpy.matrix(data,dtype,copy):返回一个矩阵，其中data为ndarray对象或者字符形式；dtype:为data的type；copy:为bool类型。>>> a = np

2015-08-03 12:48:19 64962

转载如何在Mac OS X上安装 Ruby运行环境

如何在Mac OS X上安装 Ruby运行环境　　对于新入门的开发者，如何安装 Ruby和Ruby Gems 的运行环境可能会是个问题，本页主要介绍如何用一条靠谱的路子快速安装 Ruby 开发环境。此安装方法同样适用于产品环境！系统需求首先确定操作系统环境，不建议在 Windows 上面搞，所以你需要用:Mac OS X 任意 Linux 发行版本(Ub

2015-03-14 11:19:58 471

转载关于最长递增子序列的3种解法

问题给定一个长度为N的数组，找出一个最长的单调自增子序列（不一定连续，但是顺序不能乱）。例如：给定一个长度为6的数组A{5， 6， 7， 1， 2， 8}，则其最长的单调递增子序列为{5，6，7，8}，长度为4.解法1：最长公共子序列法这个问题可以转换为最长公共子序列问题。如例子中的数组A{5，6， 7， 1， 2， 8}，则我们排序该数

2014-11-07 16:19:42 662

空空如也

linux下mysql无法删除！！