自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 资源 (1)
  • 收藏
  • 关注

转载 C++中extern “C”含义深层探索

1.引言  C++语言的创建初衷是“a better C”,但是这并不意味着C++中类似C语言的全局变量和函数所采用的编译和连接方式与C语言完全相同。作为一种欲与C兼容的语言,C++保留了一部分过程式语言的特点(被世人称为“不彻底地面向对象”),因而它可以定义不属于任何类的全局变量和函数。但是,C++毕竟是一种面向对象的程序设计语言,为了支持函数的重载,C++对全局函数的处理方式与C有明显

2012-03-29 18:13:26 822

转载 access(判断是否具有存取文件的权限)

access(判断是否具有存取文件的权限)相关函数 stat,open,chmod,chown,setuid,setgid表头文件 #include定义函数 int access(const char * pathname,int mode);函数说明 access()会检查是否可以读/写某一已存在的文件。参数mode有几种情况组合, R_OK,W_OK,X_OK

2012-03-22 13:32:24 918

转载 C/C++中判断某一文件或目录是否存在

C/C++中判断某一文件或目录是否存在 1.C++很简单的一种办法:#include iostream>#include fstream>using namespace std;#define FILENAME "stat.dat"int main(){     fstream _file;     _file.open(FILENAME,i

2012-03-22 12:56:38 1158

转载 linux stat函数讲解

表头文件:    #include             #include 定义函数:    int stat(const char *file_name, struct stat *buf);函数说明:    通过文件名filename获取文件信息,并保存在buf所指的结构体stat中返回值:     执行成功则返回0,失败返回-1,错误代码存于errno错误代码:

2012-03-22 12:55:29 1065

转载 linux 判断目录是否存在并创建

1   用   int   access(const   char   *pathname,   int   mode);   判断有没有此文件或目录 --它区别不出这是文件还是目录2   用   int   stat(const   char   *file_name,   struct   stat   *buf); 判断该文件或目录是否否存在 ;得到st_mode,然后判断是不是目录文件

2012-03-22 10:11:33 22199

转载 online random forest

传统的SVM和adaboost都是batch mode learning. 所谓的batch mode learning, 简单说,就是所有的训练数据都是available的(或则说所有训练数据都已经在内存中)。这种方法主要有2个缺点:1)  有时候数据量太大,在内存中放不下,处理起来不方便2)  由于应用环境限制,有时候无法在训练之前得到所有训练数据而Online lea

2012-03-16 13:03:05 2261

转载 Gradient Boost Decision Tree(模型测试报告)

Treelink模型测试报告1.      什么是Treelink      Treelink是阿里集团内部的叫法,其学术上的名称是GBDT(Gradient Boosting Decision Tree,梯度提升决策树)。GBDT是“模型组合+决策树”相关算法的两个基本形式中的一个,另外一个是随机森林(Random Forest),相较于GBDT要简单一些。

2012-03-16 11:52:25 5913

转载 独立成分分析(Independent Component Analysis)

独立成分分析(Independent Component Analysis)1. 问题:     1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢?     2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房间

2012-03-14 17:24:16 44301 5

转载 线性判别分析(Linear Discriminant Analysis)

线性判别分析(Linear Discriminant Analysis)1. 问题     之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。     比如回到上次提出的文档中含有“learn”和“st

2012-03-14 17:16:58 37824 3

转载 matlb 文本处理

在Matlab中,我们经常遇到需要将一些中间数据或者最终结果保存为文本形式(*.txt);其中提供了多种保存数据的语句,应该如何选择喃?在此,小弟在使用了fprintf、save、dlmwrite的基础上,对这三种方法进行了一个比较:     fprintf(fid, format, A, ...),将数据A以format表示的格式写入fid(文件)中,fid由fopen函数返回得到。

2012-03-14 11:09:38 2737

转载 决策树模型组合之随机森林与GBDT

机器学习中的算法(1)-决策树模型组合之随机森林与GBDT版权声明:    本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com前言:    决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地

2012-03-11 19:35:31 2718

转载 机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting

机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting版权声明:    本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com前言:    本来上一章的结尾提到,准备写写线性分类的问题,文章都已经写得差不多了,但是突然听说最近Team准备做一套分布式的分

2012-03-11 19:25:39 899

转载 C5.0算法学习

C5.0算法学习 C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。C4.5算法是ID3算法的修订版,采用GainRatio来加以改进方

2012-03-11 17:32:29 6377 1

转载 释放Linux操作系统文件缓存

释放Linux操作系统文件缓存  http://pthread.blog.163.com/blog/static/1693081782011111402639863/自从工作了,再也没有更新过这个技术博客。一来工作了没什么好写的,二来确实也挺忙。最近稍微有点空闲,先开一个写一点吧。记得在公司做新人习题的时候,题目是通过网络和本地分别读取一个约12G的大文

2012-03-04 20:19:47 2748

转载 linux chmod命令参数及用法详解--文件文件夹权限设定命令

使用方式 : chmod [-cfvR] [--help] [--version] mode file...说明 : Linux/Unix 的档案存取权限分为三级 : 档案拥有者、群组、其他。利用 chmod 可以藉以控制档案如何被他人所存取。把计 :mode : 权限设定字串,格式如下 : [ugoa...][[+-=][rwxX]...][,...],其中u 表示该档案

2012-02-23 13:21:26 643

转载 linux awk 内置函数详细介绍

linux awk 内置函数详细介绍(实例)这节详细介绍awk内置函数,主要分以下3种类似:算数函数、字符串函数、其它一般函数、时间函数 一、算术函数:以下算术函数执行与 C 语言中名称相同的子例程相同的操作:函数名说明atan2( y, x )返回 y/x 的反正切。cos( x )

2012-02-23 13:09:12 666

转载 linux shell数据重定向(输入重定向与输出重定向)详细分析

linux shell数据重定向(输入重定向与输出重定向)详细分析在了解重定向之前,我们先来看看linux 的文件描述符。linux文件描述符:可以理解为linux跟踪打开文件,而分配的一个数字,这个数字有点类似c语言操作文件时候的句柄,通过句柄就可以实现文件的读写操作。 用户可以自定义文件描述符范围是:3-num,这个最大数字,跟用户的:ulimit –n 定义数字有关系

2012-02-20 18:38:06 916

转载 linux shell实现随机数多种方法

linux shell实现随机数多种方法(date,random,uuid)在日常生活中,随机数实际上经常遇到,想丢骰子,抓阄,还有抽签。呵呵,非常简单就可以实现。那么在做程序设计,真的要通过自己程序设计出随机数那还真的不简单了。现在很多都是操作系统内核会提供相应的api,这些原始参数是获取一些计算机运行原始信息,如内存,电压,物理信号等等,它的值在一个时间段可以保证是唯一的了。好

2012-02-20 15:48:28 1379

转载 pthread参数传递

涉及多参数传递给线程的,都需要使用结构体将参数封装后,将结构体指针传给线程定义一个结构体struct mypara{ var para1;//参数1 var para2;//参数2}将这个结构体指针,作为void *形参的实际参数传递struct mypara pstru;pthread_create(&ntid, NULL, thr_fn,& (pstr

2012-02-08 21:27:28 1667

转载 多线程加锁

Linux pthread_mutex演示程序C++语言: Linux pthread_mutex演示程序Linux 下pthread 中使用mutex 进行互斥的程序和结果#include "stdio.h"#include "string.h"#include "stdlib.h"#include "pthread.h"#define THREA

2012-02-08 12:58:07 5747

转载 文件加锁

UNIX网络编程卷2进程间通信—记录锁1.记录锁的功能       当一个进程正在读或修改文件的某个部分时,它可以阻止其他进程修改同一文件区。我们不应该从字面上去理解记录锁,实际上它应该叫“区域锁”,因为它锁定的只是文件的一个(也可能是整个文件)。这个区域用来存放多用户的共享区。2.记录锁的分类       记录锁分为共享读锁和独占写锁,前者也叫做共享锁后者也叫做排他锁。

2012-02-08 12:56:21 3141

转载 c++ string http://www.byvoid.com/blog/cpp-string/

C++ string 详解任何人对本文进行引用都要标明作者是Nicolai M.Josuttis///////////////////////////////////////////////////////////////////////////////////C++ 语言是个十分优秀的语言,但优秀并不表示完美。还是有许多人不愿意使用C或者C++,为什么?原因众多,其中之一

2012-02-07 14:07:08 1586

转载 AI会议排名_周志华

AI会议排名_周志华 http://blog.sina.com.cn/s/blog_631a4cc40100xl7d.html南京大学周志华教授写的一个很经典的帖子。不过IJCAI能不能算成是no.1的会议有待商榷,不过总体还算客观!说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全.同

2011-12-30 17:18:49 8173

转载 林达华推荐的几本数学书

From: http://dahua.spaces.live.com/default.aspx 1. 线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读的是

2011-12-30 11:35:06 27974

转载 美国CS面试经验分享

美国CS面试经验分享 过去的一年多里,参加了一些面试,虽然面过的公司不多,但都从头一直走到尾。毕竟自己也是花了大量的时间和精力在这一场场的面试里。所以,就絮叨下自己的一些经验,希望能给在美国找实习找工作的同学们提供一点点帮助。 开始前的一些说明:1. 笔者只是一介小本科,虽然留了学,但是留了级,学识浅薄,目光短浅,文章若有不恰之处,恳请各位大牛不

2011-12-22 09:33:35 2257

转载 对线性回归,logistic回归和一般回归的认识(总结的不错)

对线性回归,logistic回归和一般回归的认识     【转载时请注明来源】:http://www.cnblogs.com/jerrylead     JerryLead     2011年2月27日     作为一个机器学习初学者,认识有限,表述也多有错误,望大家多多批评指正。1 摘要      本报告是在学习斯坦福大学机器学习课程前四节加上

2011-12-20 20:46:10 2780

转载 推荐系统算法总结

推荐系统算法总结最近看推荐系统方面的东西也有段日子了,有书,博客,唯独没有看论文。总感觉论文对于工业界来说用处真的不如学校做课题、论文那么大,只要知道某个算法好不好用以及怎么用就可以了,也不必知道太多的细节和数学推导。但根据一个好的算法,产品部门可以设计出很多很酷的产品,让用户倍感web应用的人性化。在看书,看大牛们的博客时,学习到了很多算法和思路。现在总结一下:1、Ite

2011-12-01 22:17:59 1156

转载 百度正式推出移动框计算 发力移动搜索领域

百度框计算架构开始由传统互联网向移动互联网领域延展。继去年9月,即百度框计算推出一年之后,百度开放平台正式上线。而近10个月后,也就是在上周,百度正式发布了“移动框计算服务”,这同时也意味着百度移动开放平台正式上线。未来,用户在移动互联网领域的搜索体验将进一步得到提升。  百度推出移动框计算服务  中文搜索引擎百度酝酿已久的移动框计算平台正式浮出水面。6月29日,百度正式发布了“移

2011-12-01 20:47:21 1003

转载 “阿拉丁”、“凤巢”以及热门的“移动搜索”成为重点,今年,将推动市场占有率第一的百度继续变革

IT技术天才李一男正主导着中国最大搜索引擎公司的研发战略,自他加入百度之后,该公司已经进入研发高峰期,每年10亿元的研发投入还仅仅是开始。在李一男的推动下,仍然神秘的研发项目“阿拉丁”、“凤巢”以及热门的“移动搜索”成为重点,今年,这些技术词汇将推动市场占有率第一的百度继续变革。百度公司首席技术官李一男:记者:“阿拉丁”计划的研发进展到什么程度?李一男:能被搜索引擎检索到的信息只占人类

2011-12-01 17:26:20 2247

转载 MD5算法介绍

MD5算法介绍[2006-01-06 22:24:23] [来源: www.feelingme.cn] [我要投稿]本文章地址:http://tech.163.com/06/0106/22/26QM1J230009159F.html [点此复制地址]MD5算法简介MD5即Message-Digest Algorithm 5(信息-摘要算法5),是一种用于产生

2011-11-24 10:39:12 636

转载 微博短链接解析ShortUrl

1.为什么用短链短网址应用已经在各大微博上开始流行了起来。例如QQ微博的url.cn,新郎的sinaurl.cn等。我们在QQ微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://url.cn/0nAcBW为什么要这样做的,原因我想有这样几点:1、微博限制字数为140字一条,那么如果我们需要发一些连接上去,但是这个连接非常的长,以至于将近要占用我

2011-11-24 10:16:04 2154

转载 SNA-KDD 2011论文:What Trends in Chinese Social Media

SNA-KDD 2011论文:What Trends in Chinese Social Media这篇论文是hp实验室发在KDD 2011的社交网络分析的workshop上的一篇文章,分析了新浪微博的一些特点。分享一下:What Trends in Chinese Social Media[pdf]Louis Yu.Sitaram Asur,Bernardo

2011-11-14 20:09:21 2448

转载 经典:Best paper awards for AAAI, ACL, CIKM, ICML, IJCAI, KDD, SIGIR

经典:Best paper awards for AAAI, ACL, CIKM, ICML, IJCAI, KDD, SIGIR...今天发现了一个经典的优秀论文收集,绝对是经典的收集啊,难得难得:Best paper awards for AAAI, ACL, CHI, CIKM, FOCS, ICML, IJCAI, KDD, OSDI, SIGIR, S

2011-11-14 20:03:17 2696

转载 计算机视觉领域的一些牛人博客

计算机视觉领域的一些牛人博客来自CSDN上carson2005写的一篇博客《计算机视觉领域的一些牛人博客,超有实力的研究机构等的网站链接》。以下链接是本人整理的关于计算机视觉(ComputerVision, CV)相关领域的网站链接,其中有CV牛人的主页,CV研究小组的主页,CV领域的paper,代码,CV领域的最新动态,国内的应用情况等等。打算从事 这个行业或者刚入门

2011-11-14 19:42:24 993

转载 KDD 2011的关于Scaling Up Machine Learning的Tutorial

KDD 2011的关于Scaling Up Machine Learning的TutorialScaling Up Machine Learning相对于研究来说,其实在实际应用中更为迫切一点。因为实际应用中存在太多的数据,造成了严重的效率问题,如何在有效地时间内,并且尽量最大化的利用好手里的资源来解决问题,是一个迫在眉睫的问题。这里有一个KDD 2011的Tutori

2011-11-14 19:38:33 1636

转载 分类器评价、混淆矩阵与ROC曲线

分类器评价、混淆矩阵与ROC曲线假定你基于贝叶斯理论、神经网络或其他技术建立了自己的分类器。你如何得知自己是否干了一项漂亮的工作呢?你如何得知是否可以把自己的智能模块应用于生产环境中,并获得同行的景仰以及老板的赞赏呢?评估分类器和创建它同样重要,如同在销售会议上,你会听到大量的夸大之词,但没有评估这就是一堆废话。本节的目的在于帮助你评估自己的分类器,如果你是一个开发者或产品经理, 这会

2011-11-14 19:36:45 6878

转载 搜索引擎检索技术

搜索引擎技术,可以细分为爬取、索引、检索、排序等相关领域的技术。爬取负责从互联网下载网页信息;索引负责把网页信息建立顺排和倒排索引;检索负责从索引中,把用户查询相关的网页召回;而排序负责如何对检索召回的网页进行排序,给用户一个更相关的结果。    高效的检索系统需要提供亿级次每日的检索服务能力,在100ms左右从千亿级的海量网页中获取相关的数据,同时提供稳定、7*24小时的服务和高可靠的容错机

2011-11-14 19:33:49 970

转载 KDD2009的获胜者报告

自动化时代的机械工,记KDD2009的获胜者报告正如我常说的,美丽而智能的产品或技术后面,通常隐藏着无数的脏活累活机械活。强如google那样智能直至个性化的技术产品,在那风光无限的PageRank后面,也有大量的人工标注、数据过滤、参数调节,以及与天斗与人斗的anti-spammer工作。上周重读KDD2009竞赛的获奖者报告,发现其中也不乏这样的情感。

2011-11-14 16:32:11 1588 1

转载 SSD 固态硬盘

固态硬盘维基百科,自由的百科全书汉漢▼华硕Eee PC的SSD固态硬盘(Solid State Disk、Solid State Drive,简称SSD,准确的技术称呼应为固态驱动器)是一种基于永久性存储器,如闪存,或非永久性存储器,同步动态随机存取存储器(SDRAM)的计算机外部存储设备。固态硬盘用来在便携式计算

2011-11-14 16:14:49 1294

转载 有关信息抽取的文章列表

SIGIR 2008[1]    An Unsupervised Framework for Extracting and Normalizing Product Attributes from Multiple Web Sites[2]    Enhancing Keyword-Based Botanical Information Retrieval with Information

2011-11-14 15:48:36 1018

495个C语言问题

常见经典的C语言问题 适合有一定基础的程序员阅读

2011-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除