关闭

聚类算法实践

转自: http://www.itongji.cn/article/0r52d32013.html http://www.itongji.cn/article/0R52D42013.html http://www.itongji.cn/article/0R52E22013.html ----- 所谓聚类,就是将相似的事物聚集在一起,而将不相似的事物划分到不...
阅读(5155) 评论(0)

字符串匹配的KMP算法

字符串匹配是计算机的基本任务之一。   举例来说,有一个字符串"BBC ABCDAB ABCDABCDABDE",我想知道,里面是否包含另一个字符串"ABCDABD"?   许多算法可以完成这个任务,Knuth-Morris-Pratt算法(简称KMP)是最常用的之一。它以三个发明者命名,起头的那个K就是著名科学家Donald Knuth。   这种算法不太容...
阅读(3534) 评论(0)

Spark:一个高效的分布式计算系统

本文转自:http://tech.uc.cn/?p=2116 --- 概述 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存...
阅读(4905) 评论(0)

AUC与ROC - 衡量分类器的好坏

二元分类器   二元分类器是指要输出(预测)的结果只有两种类别的模型。例如预测阳性/阴性,有病/没病,在银行信用评分模型中,也用来预测用户是否会违约,等等。   既然是一种预测模型,则实际情况一定是有些结果猜对了,有些结果猜错了。因为二元分类器的预测结果有两种类别(以下以阴/阳为例),对应其真实值,则会有以下四种情形: 1. 预测为阳性,真实值为阴性 (伪阳性) 2. 预测为阴性...
阅读(4120) 评论(0)

利用tcpcopy引流做模拟在线测试

本文转自 http://www.searchtb.com/2012/05/using-tcpcopy-to-simulate-traffic.html...
阅读(4231) 评论(0)

Treelink算法介绍

本文转自:http://www.searchtb.com/2010/12/an-introduction-to-treelink.html “机器学习”这个名词对大家来说想必不是一个陌生的词汇,特别对算法组的同学来说,工作中或多或少接触使用过这种“高科技“。对于我来说,刚来淘宝工作一个月就开始接触了机器学习,当时做主搜索功夫熊猫项目,和小致飘雪一起做交易模型,正是使用了机器学习的方法,也首次...
阅读(4637) 评论(0)

浅谈协方差矩阵

本文转自:http://hi.baidu.com/hehui1500/item/fba9444327a24693823ae1e9 今天看论文的时候又看到了协方差矩阵这个破东西,以前看模式分类的时候就特困扰,没想到现在还是搞不清楚,索性开始查协方差矩阵的资料,恶补之后决定马上记录下来,嘿嘿~本文我将用自认为循序渐进的方式谈谈协方差矩阵。 统计学的基本概念 学过概率统计的孩子都知...
阅读(4074) 评论(0)

主成分分析(Principal components analysis)-最大方差解释

本文转自:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html 在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做P...
阅读(4362) 评论(0)

overfitting(过度拟合)的概念

本文转自:http://blog.csdn.net/fengzhe0411/article/details/7165549 最近几天在看模式识别方面的资料,多次遇到“overfitting”这个概念,最终觉得以下解释比较容易接受,就拿出来分享下。 overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合...
阅读(3931) 评论(0)

Linux inode 的理解

转自: http://www.ruanyifeng.com/blog/2011/12/inode.html http://blog.s135.com/post/295/  http://hi.baidu.com/leejun_2005/blog/item/d9aa13a53b3af6e99152ee7e.html  文件名 -> inode -> device block...
阅读(4314) 评论(1)

Memcached statistics (stats command)

Memcached is a great tool for speeding up your database access. A “stats” command returns usage statistics but few documentation is available on what’s returned. The official Memcached Wiki shows...
阅读(4592) 评论(0)

LDAP快速入门

1. LDAP简介   LDAP(轻量级目录访问协议,Lightweight Directory Access Protocol)是实现提供被称为目录服务的信息服务。目录服务是一种特殊的数据库系统,其专门针对读取,浏览和搜索操作进行了特定的优化。目录一般用来包含描述性的,基于属性的信息并支持精细复杂的过滤能力。目录一般不支持通用数据库针对大量更新操作操作需要的复杂的事务管理或回卷策略。而目录...
阅读(4589) 评论(0)

BTrace使用简介

很多时候在online的应用出现问题时,很多时候我们需要知道更多的程序的运行细节,但又不可能在开发的时候就把程序中所有的运行细节都打印到日志上,通常这个时候能采取的就是修改代码,重新部署,然后再观察,但这种方法对于online应用来说不是很好,另外一方面如果碰到不好改的代码,例如引用的其他的外部的包什么的,就很麻烦了,BTrace就是一个可以在不改代码、不重启应用的情况下,动态的查看程序运行细节的...
阅读(4524) 评论(0)

Linux群集LVS简介

一、 LVS简介 LVS是Linux Virtual Server的简称,也就是Linux虚拟服务器, 是一个由章文嵩博士发起的自由软件项目,它的官方站点是www.linuxvirtualserver.org。现在LVS已经是 Linux标准内核的一部分,在Linux2.4内核以前,使用LVS时必须要重新编译内核以支持LVS功能模块,但是从Linux2.4内核以后,已经完全内置了LVS的各个...
阅读(4431) 评论(0)

Storm初始化报错java.io.NotSerializableException

最近在做实时数据分析,使用到了twitter开源的storm,在初始化的时候报了一个序列化的错: java.lang.RuntimeException: java.io.NotSerializableException: org.joda.time.format.DateTimeFormatter 报错信息很明显,因为DateTimeFormatter不支持序列化。但是我只是在bolt里使用到...
阅读(9582) 评论(0)
755条 共51页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:2162703次
    • 积分:25905
    • 等级:
    • 排名:第238名
    • 原创:174篇
    • 转载:572篇
    • 译文:9篇
    • 评论:398条