2010年07月_aalbertini

原创 bogofilter 使用

bogofilter -B ../sample_mail/non_spam_test/* -n -o0.00,0.99 -k 64 -d ./wordlist -B，指明文件列表 -n，表示为正常邮件 -ospam_cutoff[,hamcutoff] -k，指明BDB文件的大小-d，指明wordlist所在目录 ./wordlist下的BDB文件作为内容特征输入；训练完毕后./wordlist下的文件同时会被更新不需要指明-u参数，上述语句本身就是增量式训练；bogofilter -B ../

2010-07-30 12:09:00 1008 4

原创 WINDOWS 下编译ace

windows 解压ace在c盘，我的路径是： C:/ACE_wrappers 然后设置系统路径： 添加系统的环境变量，path 的最前面加入C:/ACE_wrappers/lib 添加vc的库文件路径： C:/ACE_wrappers/lib 添加vc的头文件也就是包含文件的路径： C:/ACE_wrappers 在C:/ACE_wrappers/ace目录创建一个名为 config.h的文件

2010-07-29 17:41:00 1495

原创 vi 语法高亮

vimrc中 syntax on /etc/profile文件下 export TERM=xterm-color secure crt下要设置成xterm, 选中颜色

2010-07-28 17:18:00 618

原创 gdb 查看 stl容器 zz

将下面文件作为 ~/.gdbinit的内容，或者在已有的~/.gdbinit中source下面的文件，然后可以以下列方式查看stl容器的数据： 容器类型GDB 命令std::vector<T> pvector stl_variable std::list<T> plist stl_variable T std::map<T,T> pmap stl_variable std::multimap<T,T> pmap stl_variable std::set<T> pset stl_

2010-07-28 16:49:00 1037

原创 linear regression

yi称为应变量xi称为自变量beta称为参数向量； beta的长度为p. 样本数为n, n>pepilson称为随机误差对所有评价函数有两个假设：1 矩阵X的秩为p. X 线性无关、满秩2 xi不包含误差因素， error-free。误差提到了epilson中经典线性无关模型：1 epilson期望为02 方差为 d，服从正态分布OLS， ordinary least squares假设b就是参数beta的取值， yi - xi * b称为第i项观测的 residual残差。SSR， sum of sq

2010-07-27 17:48:00 1859

原创降维技术zz

降维技术 文本分类的一个核心难题就是特征空间的高维性，一个文档集中的特征项动辄就是上万维，这么高的维数特征不仅带来极高的计算复杂度，产生维度灾难，也给分类过程带来了大量的噪音，且容易产生过度拟合的问题，因而有必要简化原始的特征集，这种简化技术就是降维技术。降维技术主要分成两大类：特征选择和特征提取。 特征选择又称独立评估法，其目的是滤除携带信息量较少的词，只保留对分类贡献较大的词。在特征选择时一般都是利用某种评价函数，独立地对每个原始特征项进行评分，然后按分值的高低将它们

2010-07-26 09:57:00 1236

原创 weka 特征选择

1 infomation gains: 会对连续的attribute进行离散化： NumericToBinary, 将属性进行0/1离散，Converts all numeric attributes into binary attributes (apart from the class attribute, if set): if the value of the numeric attribute is exactly zero, t

2010-07-23 10:26:00 5202

原创 [code] spectral cluster

根据数据构造一个 Graph ，Graph 的每一个节点对应一个数据点，将相似的点连接起来，并且边的权重用于表示数据之间的相似度。把这个 Graph 用邻接矩阵的形式表示出来，记为。一个最偷懒的办法就是：直接用我们前面在 K-medoids 中用的相似度矩阵作为。把的每一列元素加起来得到个数，把它们放在对角线上（其他地方都是零），组成一个的矩阵，记为。并令。求出的前个特征值（在本文中，除非特殊说明，否则“前个”指按照特征值的大小从小到大的顺序）以及对应的特征向量

2010-07-22 14:43:00 1709 3

原创文本分类之特征简约算法说明

见 http://blog.csdn.net/aalbertini/archive/2010/07/20/5749883.aspx 用数值衡量某个特征的重要性。 1 df: 用df衡量重要性。 df就是包含该词的文档的个数除以文档总数 2 ig: infomation gain 信息论中有关信息量（就是“熵”）的定义。说有这么一个变量X，它可能的取值有n多种，分别是x1，x2，……，xn，每一种

2010-07-20 22:16:00 1213

原创 libsvm学习 all

http://wenku.baidu.com/view/f2223ad9ad51f01dc281f140.html

2010-07-20 15:08:00 721

原创 LibSVM学习 all

LibSVM学习（一）——初识LibSVM LibSVM是台湾林智仁(Chih-Jen Lin) 教授2001年开发的一套支持向量机的库，这套库运算速度还是挺快的，可以很方便的对数据做分类或回归。由于libSVM程序小，运用灵活，输入参数少，并且是开源的，易于扩展，因此成为目前国内应用最多的SVM的库。 这套库可以从http://www.csie.ntu.edu.tw/~cjlin/免费获得，目前已经发展到2.89版。下载.zip格式的版本，解压后可以看到，主要有5

2010-07-20 15:03:00 3096

原创 LibSVM学习（三）——LibSVM使用规范

其实，这部分写也是多余，google一下“libsvm使用”，就会N多的资源，但是，为了让你少费点心，在这里就简单的介绍一下，有不清楚的只有动动你的mouse了。需要说明的是，2.89版本以前，都是svmscale、svmtrain和svmpredict，最新的是svm-scale、svm-train和svm-predict，要是用不习惯，只需要把那四个exe文件名去掉中间的短横线，改成svmscale、svmtrain和svmpredict就可以了，我们还是按原来函数名的讲。

2010-07-20 14:53:00 807

原创 LibSVM学习（二）——第一次体验libSvm

1. 把LibSVM包解压到相应的目录（因为我只需要里面windows文件夹中的东东，我们也可以只把windows文件夹拷到相应的目录），比如D:/libsvm。 2. 在电脑“开始”的“运行”中输入cmd，进入DOS环境。定位到d:/ libsvm下，具体命令如下: d: (回车) cd /libsvm/windows (回车)

2010-07-20 14:52:00 752

原创 LibSVM学习（一）——初识LibSVM

LibSVM是台湾林智仁(Chih-Jen Lin) 教授2001年开发的一套支持向量机的库，这套库运算速度还是挺快的，可以很方便的对数据做分类或回归。由于libSVM程序小，运用灵活，输入参数少，并且是开源的，易于扩展，因此成为目前国内应用最多的SVM的库。 这套库可以从http://www.csie.ntu.edu.tw/~cjlin/免费获得，目前已经发展到2.89版。下载.zip格式的版本，解压后可以看到，主要有5个文件夹和一些c++源码文

2010-07-20 14:51:00 779

原创 Weka学习五（ROC简介）

今天我们来介绍一下ROC（Receiver operating characteristics）国内复旦张文彤老师在《SPSS统计分析基础教材》中将其翻译成“受试者工作特征”，也有按字面意思译成“接受者操作特征曲线”。到底选择哪一个大家自便吧。ROC曲线是有TP(True positive rate)、FP(Flase positive rate)构成的，以TP作为Y轴，FP作为X轴。 对于一个离散型分类器（discrete classifier）

2010-07-20 14:47:00 6598

原创 Weka学习四（属性选择）

在这一节我们看看属性选择。在数据挖掘的研究中，通常要通过距离来计算样本之间的距离，而样本距离是通过属性值来计算的。我们知道对于不同的属性，它们在样本空间的权重是不一样的，即它们与类别的关联度是不同的，因此有必要筛选一些属性或者对各个属性赋一定的权重。这样属性选择的方法就应运而生了。 在属性选择方面InfoGain和GainRatio的比较常见，也是最通俗易懂的方法。它们与Decision Tree的构造原理比较相似，哪个节点拥有的信息量就为哪个节点赋较高的权重。其它的还有根据关联度的办

2010-07-20 14:46:00 1822

原创 Weka学习三（ensemble算法）

前两次我们讲了数据挖掘中比较常见的两类方法。这次我来介绍一下ensemble（集成技术），总的来说，ensemble技术是归类在分类中的。它的主要原理是通过集成多个分类器的效果来达到提高分类效果的目的。简单我们可以通过两张图片来看看集成的效果： 图一为多个基分类器单独工作时的分类效果图。图二为集成分类器的分类效果。我们可以看到集成分类器的分类曲线明显会平滑的多。来个比喻，在一件事情的表决上面，一个人的意见与多个人的意见相比，往往是多个人的意见来的准确一些。这是大

2010-07-20 14:45:00 1408

原创 Weka学习二（聚类算法）

http://liouwei20051000285.blog.163.com/blog/static/25236742009101610445275/ 上次我介绍了分类器的使用方法，这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习（unsupervised learning），这是与分类算法（supervised learning）相对的。在它们两者之间还一种叫做半监督学习（semi-supervised learning）这个我会在后面的文章中重点介绍。所谓无监督学

2010-07-20 14:44:00 2098

原创 Weka学习一（分类器算法）

http://liouwei20051000285.blog.163.com/blog/static/252367420091016104326723/ 从前年开始使用weka最数据挖掘方面的研究，到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结，我也想整理一下。因为网上的资料实在是太少，记得刚接手的时候，真是硬着头皮看代码。不过到现在看来，也积累了很多的代码了。希望能够在这里跟大家分享一下学习weka的乐趣与经验。 Weka是来之新西兰怀卡托大学的一款开

2010-07-20 14:42:00 7450 1

原创 libsvm2.9数据格式

所有关于libsvm2.9的前期工作准备好以后，就必须考虑将自己的数据转换为libsvm对应的格式来做分类验证的问题 训练与测试数据文件的格式如下所示 <label> <index1>:<value1> <index2>:<value2>… . . . 每行包含一个实例，并且以字符’/n’结束。对于分类来讲，<label>是整型数据，表示类别（支持多分类）。对于回归来讲，<label>是任意实数（浮点数），表示目标值。one-class

2010-07-20 14:40:00 915

原创用LIBSVM做回归和预测的步骤

http://liouwei20051000285.blog.163.com/blog/static/2523674201002610519709/

2010-07-20 14:38:00 2547

原创 LibSVM学习（六）——easy.py和grid.py的使用(转)

我们在“LibSVM学习（一）”中，讲到libSVM有一个tools文件夹，里面包含有四个python文件，是用来对参数优选的。其中，常用到的是easy.py和grid.py两个文件。其实，网上也有相应的说明，但很不系统，下面结合本人的经验，对使用方法做个说明。 这两个文件都要用python（可以在http://www.python.org上下载到，需要安装）和绘图工具gnuplot（可以在ftp://ftp.gnuplot.info/pub/gnuplot/上下载，不需

2010-07-20 14:38:00 1053

原创用LIBSVM做回归和预测

<1> 下载Libsvm、Python和Gnuplot。我用的版本分别是：Libsvm（2.8.1），Python（2.4），Gnuplot（3.7.3）。注意：Gnuplot一定要用3.7.3版，3.7.1版的有bug. <2> 修改训练和测试数据的格式（可以自己用perl编个小程序）：目标值第一维特征编号：第一维特征值第二维特征编号：第二维特征值 ......例如：2.3 1:5.6 2:3.2表示训练用的特征有两维，第一维是5.6，第二维是3.2，目标值是2.3 注意：训练和测

2010-07-20 14:35:00 1919

原创 weka & libsvm

http://liouwei20051000285.blog.163.com/blog/static/25236742010415101830866/ 以WEKA 3.5.4为例（3.4版的不支持） 把libsvm.jar 和wlsvm.jar 两个文件放到weka的安装目录下。然后打开runweka.ini这个文件，把 cmd_default=javaw -Xmx#maxheap# -classpath "%CLASSPATH%;#wekajar#" #main

2010-07-20 14:32:00 3114

原创在weka中配置自己的算法 zz

http://liouwei20051000285.blog.163.com/blog/static/2523674201052394826984/ 1 在weka中新建一个包,比如建立报名为"weka.classifiers.myalgorithm"的包. 2 在"weka.classifiers.myalgorithm"包中写好自己的代码,这里方便起见,我直接在"weka.classifiers.trees"包下复制ID3算法的java文件添加到"weka.classi

2010-07-20 14:25:00 1456 3

原创开源机器学习：R Meets Weka zz

http://liouwei20051000285.blog.163.com/blog/static/2523674201052844649212/ 背景介绍： 1）Weka： Weka有两种意思：一种不会飞的鸟的名字，一个机器学习开源项目的简称（Waikato Environment for Knowledge Analysis，http://www.cs.waikato.ac.nz/~ml/weka/）。我们这里当然要介绍的是第二种意思啦，Weka项目从199

2010-07-20 14:21:00 1093

原创 [数据挖掘]数据挖掘方面的资源、期刊、会议的网址集合

Journals ACM TKDD http://tkdd.cs.uiuc.edu/ DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0 IEEE TKDE http://www.ieee.org/organizations/pubs/transactions/tkde.htm ACM TODS htt

2010-07-20 14:18:00 700

原创 [数据挖掘]数据挖掘经典算法(转)

Classification============== #1. C4.5Quinlan, J. R. 1993. C4.5: Programs for Machine Learning.Morgan Kaufmann Publishers Inc. #2. CARTL. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification andRegression Trees. Wadsworth, Belmont, CA, 1984. #3. K

2010-07-20 14:15:00 720

原创 mysql 的分区

使用过oracle的分区 create table ( ) partition by list(field) value(); alter table truncate|add partition. 查了一下mysql的分区功能， mysql只有在5.1版本以后才支持分区； mysql的分区与oracle的分区从用法上类似。 找了一些示例贴在下面： <br

2010-07-08 16:10:00 804

原创主从mysql replication 集群的sharding memcache集群使用consistent hash

sharding 实现跨越DB的分区与扩展功能 consistent hash 一致哈希实现memcache的扩展 http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f7356c848c483983d25f93130716017bb5e8617140579292613152e91a0cb9b16165307761edc888de1181ee852858d2616b2e08c

2010-07-06 09:55:00 1269

原创 ssl 协议分析

来源baidu：http://wenku.baidu.com/view/03350da6f524ccbff1218428.html 需要捡起ACE尝试 SSL协议的分析及实现 文章出处：计算机与信息技术作者：令晓静田红心发布时间：2005-11-01 （西安电子科技大学ISN国家重点实验室，中国西安，710071） 1引言 SSL是一种在客户端和服务器端之间建

2010-07-01 18:22:00 842

原创 A记录与MX记录

type resource record type 有很多種, 以下介紹一些常用的 resource record type. SOA Start Of Authority, 這種 record 放在 zone file 一開始的地方, 描述這個 zone 負責的 name server, version number, maintainer 資料, 以及當 slave server 要備份這個 zone 時的一些參數. NS name server,

2010-07-01 18:08:00 780

原创 MUA & MTA

电子邮件系统包括两个组件：MUA(Mail User Agent,邮件用户代理）和MTA(Mail Transport Agent,邮件传送代理）MUA是邮件系统为用户提供的可以读写邮件的界面；而MTA是运行在底层，能够处理邮件的收发工作的程序。简单的说，用户可以使用MUA写信、读信、而通过MTA收信、发信。Foxmail、Outlook、Webmail都属于MUA。 邮件的接收是MTA和MUA配合完成的。远程的MUA首先向远程MTA连接并验证发信人身份，然后由远程MTA

2010-07-01 13:46:00 2151

aalbertini的专栏