自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 java搜索引擎工程师招聘

<br />任职要求(全职、工作地点:北京):<br />1、三年以上java开发经验<br />2、有网络爬虫、搜索引擎开发经验<br />3、了解lucene、Nutch、Heritrix、solr、hadoop、hive、hbase等开源工具<br />4、具有数据挖掘、自然语言处理、熟悉weka、sas、spss分析工具等方面经验者优先。<br />有意向且符合要求的人员请将简历发送至邮箱:[email protected]<br />北京东方正通科技有限公司<br />公司网站:

2011-03-16 15:20:00 703

转载 Weka开发 —KMeans源码介绍

<br />以前介绍的都是分类的内容,这一次介绍聚类,以最简单的SimpleKMeans源码为例。<br />       分类中训练一个分类器是用buildClassifier(),在聚类中学习一个Clusterer是用buildCluster()。分类中分类一个样本是用classifyInstance,而在聚类中是用clusterInstance。那我怎么知道这些的呢?(或者说:你怎么知道我是不是在骗你呢?)以ID3为例,你可以看出它继承自Classifier类,进入Classifier类,它有三个比较

2011-03-10 17:59:00 1070

转载 Weka开发-- NBTree源码介绍

<br /> <br />    我不多的读者之一发E-mail给我,说他没有看出NBTree和J48的区别是什么,当时我也没什么空,所以拖到今天才草草看了看。大概讲一下。<br /> <br /> <br />      下面是J48中的buildClassifier代码:<br />publicvoid buildClassifier(Instances instances) throws Exception {<br /> <br />    ModelSelection modSelection

2011-03-10 17:57:00 1702

转载 Weka开发 -J48源代码介绍

<br />这次介绍一下J48的源码,分析J48的源码似乎真还是有用的,同学改造J48写过VFDT,我自己用J48进行特征选择(当然很失败)。<br />J48的buildClassfier函数:<br />publicvoid buildClassifier(Instances instances) throws Exception {<br />    ModelSelection modSelection;<br /> <br />    if (m_binarySplits)<br />      

2011-03-10 17:50:00 2290

转载 Weka开发 -ZeroR源代码介绍(入门篇)

<br />首先提一下,ZeroR很多人以为是乱猜,实际是如果类别是离散值,就返回最有可能的类别,如果是连续值,则返回类别的平均值。<br />       下面函数的前面两句话哪个分类器都有,就不说了。这个函数简单地让我不知道怎么讲了。m_Counts如果是离散(Nominal)的类别,就把它初始化为一个有类别数大小的一维数组,如果是类别是连续(Numeric)值,那就是一个值。<br />       下面while循环,这种写法是枚举数据集中的每一个样本,如果是离散值,m_Counts相应的类别下标加

2011-03-10 17:46:00 2133 1

原创 Weka开发 -OneR源代码介绍

<br />        OneR是一个很简单的算法,出自论文:Verysimpleclassificationrulesperformwellonmostcommonlyuseddatasets,由于论文的风格过于奔放,并且很长,所以我也就没怎么看。基本思想就是对每一个属性都建一个单层的分类器,对这些分类器进行比较,谁分类效果好就作为最终的分类器。<br />       下面还是看buildClassifier的代码(删除了部分代码),首先判断是不是就一个属性(一个属性意味着只有一个类别特征),如果是

2011-03-10 17:44:00 6675

原创 Multi-Label Classification(多标签分类) 介绍

<br />Multi-Label是一个比较新的研究方面,可能很多人没有听过。这里我简单地翻译一下Tsoumakas的介绍(http://mlkd.csd.auth.gr/multilabel.html)。<br />Introduction <br />Traditional single-label classification is concerned with learning from a set of examples that are associated with a single labe

2011-03-10 17:40:00 2999

原创 Java乱码问题

由于Java编程中的中文问题是一个老生常谈的问题,在阅读了许多关于Java中文问题解决方法之后,结合作者的编程实践,我发现过去谈的许多方法都不能 清晰地说明问题及解决问题,尤其是跨平台时的中文问题。于是我给出此篇文章,内容包括对控制台运行的class、Servelets、JSP及EJB类中 的中文问题我剖析和建议解决办法。希望大家指教。  Abstract:本文深入分析了Java程序设计中Ja

2010-01-04 16:33:00 669

原创 “九型人格”-你的团队用了吗

       你的团队是否存在沟通不畅的现象?即使你很努力尝试去调解,去改善但是还是令你头大?       你是否经常感觉为什么大家无法理解到你的想法,或者说你的同事的想法是那么天真or异想天开大逃亡or思维定势?       你是否感觉在你心情好,大家的鼓励多的情况下,工作越能干的异常出色;相反,大家争吵多,心情坏的情况下,工作效果会异常糟糕?       你的上级是否认为你是个优柔

2010-01-04 16:30:00 961

转载 预防classloader内存泄漏

作者:Ken Wu`s Blog日期:2009/12/14原文链接:http://kenwublog.com/prevent-classloader-memory-leak最近在开发一个插件动态部署功能,由于在单元测试里批量进行了redeploy,竟然到最后出现了OOM, faint。看来有必要回顾一下classloader memory leak。Classloa

2010-01-04 16:26:00 1757

转载 How to fix the dreaded "java.lang.OutOfMemoryError- PermGen space" exception (classloader leaks)

作者:Frank Kieviet日期:2006.10.19链接:http://blogs.sun.com/fkieviet/entry/how_to_fix_the_dreaded In the previous blog entry Classloader leaks: the dreaded "java.lang.OutOfMemoryError: PermGen space" e

2010-01-04 16:25:00 1054

原创 Reloading Java Classes 201- How do ClassLoader leaks happen?

作者:Jevgeni Kabanov日期:2009.12.10链接:http://www.zeroturnaround.com/blog/rjc201/For the full article series on Reloading Java Classes, see:           RJC101: Objects, Classes and ClassLoaders

2010-01-04 16:23:00 535

转载 Java偏向锁实现原理(Biased Locking)

作者:Ken Wu`s Blog日期:2009/11/14链接:http://kenwublog.com/theory-of-java-biased-locking阅读本文的读者,需要对Java轻量级锁有一定的了解,知道lock record, mark word之类的名词。可以参考我的一篇博文:Java轻量级锁原理详解(Lightweight Locking)Java偏向锁(Bias

2010-01-04 16:20:00 501

转载 Full Content

作者:Fenng日期:2009.12.1链接:http://www.dbanotes.net/arch/flickr_ops.html学习了一下 Flickr 的运维工程师 John Allspaw 的这个Operational Efficiency Hacks 讲座内容。做一点笔记。现在 Flickr 的数据相比2007年的时候真是有了显著的增长:24 TB 的 MySQL

2010-01-04 16:00:00 472

转载 Java轻量级锁原理详解(Lightweight Locking)

作者:Ken Wu`s Blog日期:2009/11/08链接:http://kenwublog.com/theory-of-lightweight-locking-upon-cas大家知道,Java的多线程安全是基于Lock机制实现的,而Lock的性能往往不如人意。原因是,monitorenter与monitorexit这两个控制多线程同步的bytecode原语,是JVM依赖操作系统互斥

2010-01-04 15:28:00 397

转载 分布式计算开源框架Hadoop入门实践(三)

Hadoop基本流程  一个图片太大了,只好分割成为两部分。根据流程图来说一下具体一个任务执行的情况。在分布式环境中客户端创建任务并提交。 InputFormat做Map前的预处理,主要负责以下工作:验证输入的格式是否符合JobConfig的输入定义,这个在实现Map和构建Conf的时候就会知道,不定义可以是Writable的任意子类。 将input的文件切分为逻辑

2010-01-04 11:23:00 403

转载 分布式计算开源框架Hadoop入门实践(二)

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可。这里主要重点说一下集群配置运行的过程。环境7台普通的机器,操作系统都是Linux。内存和CPU就不说了,反正Had

2010-01-04 11:21:00 406

转载 分布式计算开源框架Hadoop入门实践(一)

在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Memcache作为计数器,结合MySQL就完成了访问控制以及统计的工作。然而未来,对于海量日志分析的工作,还是需要有所准备。现在最火的技术词汇

2010-01-04 11:02:00 397

原创 Two Simple Rules for HTTP Caching

作者:httpwatch blog日期:2007.12.10链接:http://blog.httpwatch.com/2007/12/10/two-simple-rules-for-http-caching/   In practice, you only need two settings to optimize caching:           Don’t cach

2009-12-09 18:05:00 82

转载 mount和unmount命令

作者:ooppto日期:2007-11-27 05:34链接:http://hi.baidu.com/ooppto/blog/item/2d3c8d01e58fa8051c958355.html                如果想在运行的Linux下访问其它文件系统中的资源的话,就要用mount命令来实现。                             

2009-12-09 18:03:00 816

转载 独家:让JBOD与软件RAID互补有无

作者:胡超明日期:2009-11-02 09:00链接:http://storage.ctocio.com.cn/primarystorage/414/9262414.shtmlJBOD又叫做“简单磁盘捆绑”,是最近几年提出的、并被广泛应用的一种存储方案。在当前的存储领域中,JBOD也是一个相当重要的存储设备。   【IT专家网独家撰稿】JBOD又叫做“简单磁盘捆绑”

2009-12-09 17:57:00 791

转载 Linux下双网卡绑定技术实现负载均衡

作者:佚名日期:2009-7-7 8:09:00链接:http://www.5dlinux.com/article/1/2009/linux_33048.html我们在这介绍的Linux双网卡绑定实现就是使用两块网卡虚拟成为一块网卡,这个聚合起来的设备看起来是一个单独的以太网接口设备,通俗点讲就是两块网卡具有相同的IP地址而并行链接聚合成一个逻辑链路工作。其实这项技术在Sun和Cisc

2009-12-09 17:54:00 350

原创 linux AS 3 的关于LVM的逻辑卷的用法

 作者:june_cai日期:2007-09-10 13:37:26链接:http://www.chinaunix.net/jh/4/221895.htmlLVM是一个基于逻辑卷管理的机制,它是一个非常方便的磁盘管理方式,以前只有 IBM 的 AIX才支持,最近装了LINUX AS 3发现LINUX也支持了,我个人使用了一下,发觉还是比较方便,他可以动态的扩充一个文件系统的 大小而不需

2009-12-09 17:53:00 347

转载 软RAID 0的技术概要及实现 v0.1b

作者:北南南北来自:LinuxSir.Org摘要:Software RAID 中译是软RAID ,软RAID 比如常用的有RAID 0 、RAID 1 、RAID 5、RAID 10 ;          本文主要讲述RAID 0、1、5、10的基本概念及软RAID 的创建、修复和管理链接:http://www.linuxsir.org/main/?q=node/279    目录

2009-12-09 17:51:00 380

转载 RHEL 5实现软RAID及LVM方法

作者:佚名链接:http://www.5dlinux.com/article/9/2009/linux_29570.htmlRAID是Redundant Array of Inexpensive Disk的缩写,意为廉价冗余磁盘阵列,是磁盘阵列在技术上实现的理论标准,其目的在于减少错误、提高存储系统的性能与可靠度。常用的等级有0、1、5级等。◆RAID 0RAID 0将数据分条,存

2009-12-09 17:47:00 452

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除