2012年08月_sunlylorn

转载理解 pkg-config 工具

你在 Unix 或 Linux 下开发过软件吗？写完一个程序，编译运行完全正常，在你本机上工作得好好的，你放到源代码管理系统中。然后，告诉你的同事说，你可以取下来用了。这时，你长长的出了一口气，几天的工作没有白费，多么清新的空气啊，你开始飘飘然了。“Hi，怎么编译不过去？”你还沉浸在那种美妙的感觉之中，双臂充满着力量，似乎没有什么问题能难倒你的。正在此时，那个笨蛋已经冲着你嚷开了。“不会吧

2012-08-25 21:02:22 791

原创 Ubuntu下安装opencv

一、下载代码1、一些会用到的库sudo apt-get install build-essential cmake libgtk2.0-dev libtiff4-dev libjasper-dev libavformat-dev libswscale-

2012-08-25 21:00:39 11782 1

原创 java中的hashmap遍历方法

HashMap的遍历有两种常用的方法，那就是使用keyset及entryset来进行遍历，但两者的遍历速度是有差别的。keySet遍历其实遍历了2次，一次是转为iterator，一次是从hashmap中取出key所对于的value。entryset只遍历了1次，就把key和value都放到了entry中，所以就快了。第一种:Map map = n

2012-08-22 18:58:07 717

转载对线性回归，logistic回归和一般回归的认识

原文地址：http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html1 摘要本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题，回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型，然后将该数学模型用于预测或者分类。该方

2012-08-21 13:14:33 1147

转载 svm简介

目录概述补充使用手册重要论文展开概述补充SVM用于模式识别或回归时，SVM方法及其参数、核函数及其参数的选择，目前国际上还没有形成一个统一的模式，也就是说最优SVM算法参数选择还只能是凭借经验、实验对比、大范围的搜寻或者利用软件包提供的交互检验功能进行寻优。　　目前，LIBSVM拥有Java、Matlab、C#、Ruby、Python、R、Perl、Common L

2012-08-20 11:07:15 3346

转载学习SVM

【转载请注明出处】http://www.cnblogs.com/jerrylead1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候，老师要求交《统计学习理论》的报告，那时去网上下了一份入门教程，里面讲的很通俗，当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料，让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最

2012-08-20 11:02:45 4319

转载 Libsvm和Liblinear的使用经验谈

Libsvm和Liblinear都是国立台湾大学的Chih-Jen Lin博士开发的，Libsvm主要是用来进行非线性svm 分类器的生成，提出有一段时间了，而Liblinear则是去年才创建的，主要是应对large-scale的data classification，因为linear分类器的训练比非线性分类器的训练计算复杂度要低很多，时间也少很多，而且在large scale data上的性

2012-08-20 11:00:23 28714 6

原创 linux进程内存分布

linux进程内存分布，地址从低到高依次是代码段，数据段，堆，栈，堆栈之间是mmap映射的共享内存空间以及共享库，再上是命令行参数，环境变量，最高1g是共享的内核空间。其中栈是从高地址向低地址分配,堆是从低地址向高地址分配。具体如下图所示：

2012-08-17 23:24:32 3979

原创 Hadoop 2.0 计数器

hadoop1.x里面用于统计的计数器是Reporter累，在2.x中统一用Context类，此时需要调用下面的API进行统计：例子：public class test extends Configured implements Tool { enum BadRecord{ BAD_UNIQUEID, BAD_WIDTH, BAD_HEIGHT

2012-08-17 18:59:28 2523

转载 ./configure && make && make install详解

在Linux中利用源码包安装软件最重要的就是要仔细阅读安装包当中的README INSTALL两个说明文件，这两个文件会清楚的告诉你如何可以正确的完成这个软件的安装！我们都知道源码包安装分为这么几个阶段，1、 ./configure：“configure”会在你的系统上测试存在的特性 Make：编译程序。5、 cd：进入到这个源码包。

2012-08-17 18:54:27 1221

原创 Windows下用Eclipse开发Hadoop程序遇到的问题及解决方法

运行hadoop程序报错如下：Exception in thread "main" java.io.IOException: Cannot run program "chmod": CreateProcess error=2解决方法：只需要把cygwin的bin目录加到windows的用户环境变量中就可以了，然后需要重启eclipse

2012-08-17 18:52:39 1607 5

转载有效操作Linux命令行的几种方法

1.在命令历史中查找　　强烈推荐使用 Ctrl+r，这个键组合是反向增量查找消息历史。很好用。比如你很久以前输入过某个命令如。 gcc -c -DKKT - Dnnn 等等，一长串，用上下方向键来找比较困难，这时候可以Ctrl+r，然后输入gcc很快找到该命令，重复按Ctrl+r将查找更早的历史。　　其实还有 Ctrl+s 是正向增量查找的，但是由于这个快捷键被终端预设成锁屏幕了，

2012-08-16 13:58:23 822

转载 Valgrind中文使用手册

名字： valgrind是一个调试和剖析的程序工具集。概要用法： valgrind [[valgrind] [options]] [your-program] [[your-program-options]]概述： Valgrind是一个Linux下灵活的调试和剖析可执行工具。它由在软件层提供综合的 CPU内核,和一系

2012-08-06 21:38:32 3698

转载 linux下调试内存泄露的利器Valgrind

Valgrind的主要作者Julian Seward刚获得了今年的Google-O'Reilly开源大奖之一──Best Tool Maker。让我们一起来看一下他的作品。Valgrind是运行在Linux上一套基于仿真技术的程序调试和分析工具，它包含一个内核──一个软件合成的CPU，和一系列的小工具，每个工具都可以完成一项任务──调试，分析，或测试等。Valgrind可以检测内存泄漏和内存违

2012-08-06 21:01:04 4783

转载随机排列生成算法的一些随想

这篇文章主要是一个闲文。如果您正在寻求一个理想的随机排列生成算法，直接阅读方法3，或是直接使用STL里提供的random_shuffle()方法另外请注意，这里所讨论的算法并不是新的。什么是随机排列？一个随机排列是一组位于随机位置的对象。给定一个对象，1, 2, 3 ... n，随机排列看起来就是，p1, p2, p3 ... pn其中px是从原来的对象集合中选取

2012-08-06 16:08:22 3542

转载文本去重之SimHash算法

说到文本相似性计算，大家首先想到的应该是使用向量空间模型VSM（Vector Space Model）。使用VSM计算相似度，先对文本进行分词，然后建立文本向量，把相似度的计算转换成某种特征向量距离的计算，比如余弦角、欧式距离、Jaccard相似系数等。这种方法存在很大一个问题：需要对文本两两进行相似度比较，无法扩展到海量文本的处理。想想像Google这种全网搜索引擎，收录了上百亿的网页，爬虫

2012-08-06 15:38:37 2360

转载文本去重之MinHash算法

1.概述跟SimHash一样，MinHash也是LSH的一种，可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出，最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。2.Jaccard index 在介绍MinHash之前，我们先介绍下Jaccard index。

2012-08-06 14:58:04 19855 5

第一次听说google的simhash算法[1]时，我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值，原理上相当于伪随机数产生算法。传统hash算法产生的两个签名，如果相等，说明原始内容在一定概率下是相等的；如果不相等，除了说明原始内容不相等外，不再提供任何信息，因为即使原始内容只相差一个字节，所产生的签名也很可能差别极大。从这个意义上来说，要设计一个hash算法，对

2012-08-06 11:46:21 1801

sunlylorn的专栏