pingchuan2012-CSDN博客

转载社会计算实例：10秒钟验证码能干什么？

你一定见识过这种情况：电脑提示——“请输入验证码”，然后是几个数字，或者一个字符串，你得小心辨认，然后把辨认出来的字符，输进去，让机器判断你到底是真人，还是计算机软件。　　这种情形叫做“验证码”，英文名字比较长，叫做CAPTCHA，Completely Automated Public Turing test to tell Computers and Humans Apart，意思是“全自动

2013-09-27 11:24:36 777

原创 CentOS 添加 epel 安装源（64位）

rpm -ivh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm

2014-01-17 09:51:18 795

转载 CentOS下设置服务自动启动的方法

在CentOS或者RedHat其他系统下，如果是后面安装的服务，如httpd、mysqld、postfix等，安装后系统默认不会自动启动的。就算手动执行/etc/init.d/mysqld start启动了服务，只要服务器重启后，系统仍然不会自动启动服务。在这个时候，我们就需要在安装后做个设置，让系统自动启动这些服务，避免不必要的损失和麻烦。其实命令很简单的，使用chkconfig

2014-01-17 09:48:04 452

原创 SGE日志分析聚类算法

基于KMeans的改进算法（针对一维）：【算法】1.设定阈值，使用固定筛子的方式将对象分配到各个不同的“筛孔”里，并计算落入每个“筛孔”中的对象的平均值，即初始质心。2.对步骤1中的初始质心进行类似步骤1方法的聚类，得到初始质心的聚类结果。3.将步骤2中的初始质心聚类结果作为聚类的初始质心进行聚类，对于每个对象选择最近的质心，若到达每个质心的距离都超过设定的阈值，则创建新类。

2013-11-05 14:40:13 827

转载不吃早饭有多伤身？

说到吃早饭，很多人都会用“没时间”来搪塞，也有人会说“食欲不好，真心吃不下啊”。无论说什么，归根到底都是一个因素——觉得早餐不重要。重要的事情，我们总是有时间做的，没有条件创造条件也要做！那么早餐真的可有可无么？真不是这么回事。俗话说“早餐如进补”，无论中外，营养学家都提倡好好吃早餐。人们早就知道，不吃早餐可能增加胆结石的危险，容易患上胃肠疾病，容易发生低血糖等。在小学生中进行的研

2013-10-23 15:25:42 756

原创异常检测

目标：发现和大部分其他对象不同对象。挑战：难以定义一个涵盖所有正常行为的规则。某些异常行为为了不被发现常常表现得和正常行为很像。在许多领域正常行为也是不断变化的，现在的正常行为不代表以后也是正常的。用于训练的标记数据的可用性是一个重要因素。数据异常难以检测和区分。

2013-10-12 10:15:45 539

转载 K均值（KMeans）

基本算法：1：选择K个点作为初始质心2：repeat3：将每个点指派到最近的质心，形成K个簇。4：重新计算每个簇的质心。5：until 质心不发生变化。存在的问题：初始质心的选择。如果一个簇对只有一个质心，那么将只能得到次最优结果。解决的办法有（1）多次运行，选择不同的质心，选择能够产生较好结果的那一次运行。（2）先对对象进行抽样，对抽样结果进行层次聚类，在层次

2013-09-24 10:47:54 744

转载聚类的基本概念

聚类类型层次的和划分的。层次的就是不断地对小簇进行聚合，知道最后形成一个大簇，其结构为树的结构。而划分聚类则直接将各个对象划分成为不想重叠的类别。互斥的、重叠的和模糊的。互斥指的是每个对象被指派到单个的簇。重叠的则可以将一个对象指派到多个簇中，模糊的是重叠的一种特例，它通过一个权值来表示对象到某个簇的的隶属情况。完全的和部分的。完全聚类指的是将全部对象都指派到簇中，而部分聚类不会将全部

2013-09-24 09:32:14 784

转载 kmeans质心选择

方式一：先对于样本进行层次聚类，从而得到层次聚类结果的质心作为kmeans的质心，这是比较有效的一种选择，不过问题在于层次聚类的开销太大，因此不利于大数据的聚类。方式二：随即选择一个点，然后以此为中心，选择离第一个点最远的点，这样可以确保散开，但是无法保证这样选中的质心位于数据密集的区域。

2013-09-05 14:37:08 1883

原创 XXX集群日志错误信息总结

详情参考：http://arc.liv.ac.uk/SGE/htmlman/htmlman5/sge_status.html出现的错误：0：正常执行并退出19：在输出exit_status之前退出，没有正确记录日志26：打开标准输入输出文件出错27：找不到指定的shell28：无法修改当前目录到目标工作目录30：程序本身返回错误，执行了但是返回100错误，可能进行了重调

2013-08-22 14:17:56 647

转载 Grid Engine accounting file format

http://arc.liv.ac.uk/SGE/htmlman/htmlman5/accounting.html1. qname：队列名2. hostname：主机名3. group：用户组名4. owner：提交用户5. job_name：作业名6. job_number：作业号7. account An account string as specified by the qsub(1) o

2013-08-22 10:58:50 539

转载性能监控/优化系列——内存/线程/锁相关

1. 内存的分页(paging)、交换(swapping)、锁和线程的上下文切换（分为voluntary and involuntary context switching）需要监控。两种上下文的区别：voluntary ——voluntarily takes itself off the CPU；involuntary ——占用时间期满或优先级更高的线程取代。2. 如果一个jav

2013-08-21 14:27:27 666

转载高通量计算机

高通量计算机室数据中心计算机系统，以低成本、高拓展、集中的硬件和软件系统栈处理高并发和独立的数据密集型负载。其典型应用包括数据密集型服务和数据分析应用。和后者对比，前者的特点是其交互性和实时性。与传统高性能计算机的差异耦合性。传统大规模并行计算依赖于全局通行和同步操作，具有高度耦合性。在高通量计算系统中，为了解决可拓展性的问题，服务系统通常由一组服务实例程序构成，他们包含多个数据副本，并且

2013-08-21 10:44:22 1681

转载决策树

决策树是一种逼近离散值函数的方法，对噪声数据有很好的健壮性而且能够学习析取表达式。决策树学习的归纳偏置是有限选择较小的树。

2013-08-21 10:11:37 465

转载归纳偏置

a bug：以下训练样例无法使用候选消除算法得到目标概念------------------------------------------------------------------------------------------------------------------------------Example Sky AirTemp Hum

2013-08-20 18:08:38 1134

转载候选消除算法

假设与样例一致：当一个假设能正确分类一组样例的时候，我们称这个假设是与这些样例一致的。具体定义如下：一个假设h与训练样例集合D一致，当且仅当对D中的每一个样例都有h(x)=c(x)。即：Consistent(h, D)=(∀∈D) h(x)=c(x)。这里的一致和前面定义的满足时不同的。一个样例x无论是目标概念的正例还是反例，在h(x)=1的时候成为满足假设h。然而，这一样例是否与h一致则与目标概

2013-08-20 16:21:12 8520

转载概念学习和一般到特殊序

机器学习的中心问题：从特殊归纳出一般。概念学习：给定某一类别的若干正例和反例，从中获得该类别的一般定义。也可以看做是一个搜索问题，它在预定义的假设空间中搜索假设，使其与训练样例有最佳的拟合度。或者说是从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。由？表示任意本属性可接受的值；明确指定的属性值（如warm）；由∅表示不接受任何值；

2013-08-20 09:58:41 744

转载偏序

偏序关系又称半序关系。设A为一个非空集，P是A上的一个关系，若关系P是自反的，反对称的，和传递的，则称P是集合A上的偏序关系。即符合下列条件：（1）对任意的a∈A,(a,a)∈P;（2）若（a,b)∈P且（b,a)∈P,则a=b;（3）若（a,b)∈P,(b,c)∈P,则（a,c)∈P

2013-08-20 09:46:30 549

转载设计一个学习系统

------------------------------------------------------学习的基本概念学习的宽广定义：任何计算机程序通过经验来提高其任务处理性能的行为。学习的严格定义：如果一个计算机程序针对某类任务T使用P作为衡量标准，而且使用经验E进行自我完善，那么我们策划那个这个计算机程序针对任务T从经验E中学习，其性能使用P进行衡量。例子：西洋跳棋的学习问题

2013-08-19 16:25:00 631

转载一些学科对机器学习的影响

人工智能：学习概念的符号表示。作为搜索问题的机器学习。最为提高问题求解能力的学习。利用先验的知识和训练数据一起引导学习。贝叶斯方法：作为计算假设概率基础的贝叶斯法则。朴素贝叶斯分类器。未观测到变量估计值的算法。计算复杂性理论：不同学习任务中固有的复杂性的理论便捷，以计算量、训练样例数量、出错数量等衡量。控制论：熵和信息内容的度量。学习最小描述长度

2013-08-19 14:01:53 589

转载 LMS算法

简介全称 Least mean square 算法。中文是最小均方算法。感知器和自适应线性元件在历史上几乎是同时提出的，并且两者在对权值的调整的算法非常相似。它们都是基于纠错学习规则的学习算法。感知器算法存在如下问题：不能推广到一般的前向网络中；函数不是线性可分时，得不出任何结果。而由美国斯坦福大学的Widrow和Hoff在研究自适应理论时提出的LMS算法，由于其容易实现而很快得到

2013-08-13 13:51:33 1191

转载 Min-Min算法和Max-Min算法

Min-Min算法Min-Min算法是一种实现起来很简单的算法，算法的执行时间也很快。算法的思想是首先映射小的任务，并且映射到执行快的机器上。执行过程为：计算要参与映射事件的每个任务在各个机器上的期望完成时间，找到每个任务的最早完成时间及其对应的机器；从中找出具有最小最早完成时间的任务，将该任务指派给获得它的机器；指派完成后，更新机器期望就绪时间并将已完成映射的任务从任务集合中删除

2013-07-29 11:44:47 1034

原创并行作业类型

并行作业类型Feitelson等在文献[4]中以作业调度的视点将并行作业分为4种类型：一、严格的(rigid)：在执行过程中使用的处理器数目是确定的，并且对处理器数目的要求在作业提交时指定。二、可塑的(moldable)：作业允许以不同处理器规模执行并且在提交时并不确定，但作业规模在执行时予以确定且在执行过程中不再改变。三、进化的(evolving)：作业在执行过程中会在不同执行阶

2013-07-29 10:03:39 779

原创并行分区特性

分区特性许多并行系统的处理器被划分为若干个不同数量的区间。大部分的处理器都被分配与处理并行作业的分区，而另一部分分区可能用于系统服务。并行作业运行时所在的分区可能取决于处理器数量、应用程序以及系统负载[3]。每个并行任务运行时所分配的分区可能有如下几种方式：一、固定的(Fixed)。分区大小的由系统管理员定义，只能通过重启进行修改。二、可变的(Variable)。分区的

2013-07-29 10:01:33 644

转载对称多处理计算机 smp

对称多处理"（Symmetrical Multi-Processing）又叫SMP，是指在一个计算机上汇集了一组处理器(多CPU),各CPU之间共享内存子系统以及总线结构。它是相对非对称多处理技术而言的、应用十分广泛的并行技术。在这种架构中，一台电脑不再由单个CPU组成，而同时由多个处理器运行操作系统的单一复本，并共享内存和一台计算机的其他资源。虽然同时使用多个CPU，但

2013-07-29 09:40:59 546

pingchuan2012的专栏