- 博客(119)
- 收藏
- 关注
原创 Ensemble methods 之 Random Forest(随机森林)
1. 是什么如前面所说,决策树有时候会出现过拟合(overfit)的问题,越强大的决策树越可能出现过拟合,但是如果几个模型或者一个模型的几个参数组合起来,就很容易弥补这种问题。所以,随机森林就是一种ensemble方法中的bagging方法,用原始数据进行训练至完全分裂最后得到多个决策树,对新的数据的预测就是对所有的决策树取平均值来进行预测。2. 关键概念采样。样本数量为N
2015-08-25 14:59:08 6930
原创 Ensemble methods(组合方法,集成方法)
机器学习的算法中,讨论的最多的是某种特定的算法,比如Decision Tree,KNN等,在实际工作以及kaggle竞赛中,Ensemble methods(组合方法)的效果往往是最好的,当然需要消耗的训练时间也会拉长。所谓Ensemble methods,就是把几种机器学习的算法组合到一起,或者把一种算法的不同参数组合到一起。基本上分为如下两类:Averaging methods
2015-08-25 13:59:45 13987
原创 scikit-learn介绍
为什么介绍scikit-learnpython实现的,而不是R,免费。没有和别的库做过比较,但是自身的文档足够好,例子足够多。算法足够全,至少对于我的水平。基于上面的几个原因,在写博客的过程中,就以scikit-learn作为主线来进行学习。在学会在sklearn中如何使用的基础上,同时扩展算法原理以及基础。什么是scikit-learn在s
2015-08-17 17:25:42 8648 1
原创 Decision Tree 决策树 - ID3, C45, C50, CART...
是什么决策树是最简单的也是最具解释性和表达性的一种机器学习算法,既可以处理分类问题(ID3,C45,C50),也可以处理回归问题(CART)。它是根据特征(feature)的值逐步把数据分类,直到所有的叶子节点属于同一个类型结束。注意决策树都是贪婪的。关键概念1. 如何确定哪个特征被优先选择用来分类。根据某一个特征划分数据集,其划分前后信息熵会有变化。优先选择的特征是让给让
2015-07-09 17:47:24 13850
原创 DBSCAN - 基于密度的聚类算法
是什么DBSCAN(Density-Based Spatial Clustering of Application with Noise),是一个典型的基于密度的聚类算法。目标是寻找被低密度区域分离的高密度区域,通俗点说就是把扎堆的点(高密度)找出来,而点很少很稀疏的地方(低密度)就作为分割区域。关键概念1.与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的
2015-07-06 14:09:22 14452 2
原创 随想 - 缘起
随想 == 随意在想,随时在想,随时更新。写这个机器学习blog的原因:1). 根据从前的经验,学习过的东西,要总结以及书面化,才会印象更加深刻。所以,第一个原因是自己别忘了并且加深理解和加深印象。2). 万一有哪个小白需要入门,万一凑巧搜到了这个地方,可以给一个简洁的入门帮助。所以第二个原因是为了方便别人。目标:1). 我不是数学家,不是科学家,也不是搞研究的
2015-07-03 16:35:41 648
原创 机器学习 之 一句话解释 关键概念
在机器学习中,很多算法是很复杂的,很难容易的形象的解释,但是也有很多是算法复杂,但是理解起来简单。本文试图把学过的一些知识逐步有系统的用一二句话给小白解释清楚,一二句话解释不清楚的,也不勉强,我会给出高手文章的链接或者我自己日记的链接,希望这个页面作为自己的一个系统化的备忘,以及小白的简单入门。另外,这个页面是逐步更新的。机器学习基础先行知识凸优化c
2015-07-03 14:12:50 2151
原创 windows map file的内存粒度
map file最小粒度可以通过void GetSystemInfo( LPSYSTEM_INFO lpSystemInfo);lpSystemInfo->dwPageSize得到;基本上都是4K。那么,进行FileMapping的时候,只要分配的小于4K,系统都会按照4K来进行;例子为证:void CMapViewDlg::OnCancel2() { long lPa
2009-06-17 11:18:00 1218
原创 VC如何检查不与不必要的库建立链接
如何判断并检查rule29:不与不必要的库建立链接.是这样的:The /OPT option controls the optimizations that LINK performs during a build. Optimizations generally decrease the image size and increase the program speed at a cost
2009-06-17 11:16:00 845
转载 新东方推荐的有助于英语学习的电影
初级: 1. The Graduate 2. Arthur 3. A fish called Wanda 4. Sabrina 5. Something to talk about 中级; 1. Forest Gump 2. Sleepless in Seattle 3. Pretty woman 4. Ordinary people 5. My best friends wedding 高级;
2009-06-17 11:15:00 1659
原创 单精度浮点数在vc++6.0中内存格式
【补记】这个文章是几年前写的,重新整理了一下到这里。当时是在VC6的环境下做的测试,但是我怀疑这个基本上就是C++规范的实现。 【原文】首先说明的是,浮点数在内存中始终只是是一个近似值,比如,2.3+4.5在java中等于6.777777777777779或者6.800000000000001,当然这也给程序员带来了不方便,c++相对就没有这个问题浮点数存储时,分成三部分,分别
2009-06-17 11:10:00 4392 1
转载 100部经典电影
100部陪伴我们长大的电影 作者: 如猫添翼 这是100部伴随我们长大的电影,这是100部代表了我们欢乐、痛苦、微笑、眼泪的电影,这也是100部我们喜爱的电影。它们浓缩着我们的生命。 001. 《三十九级台阶》 The 39 Steps(1935) 虽然晚了一些,能接受阿尔弗雷德.希区柯克爵士的教育总是幸福的。 002. 《摩登时代》 Modern Times(1936) 就是看它认识
2009-06-17 10:58:00 7574
转载 10部男生必看经典电影
《阿甘正传》 课程:执着 每次想起阿甘在美国东西海岸之间的奔跑,心里都会止不住的伤感,还有振奋。 你相信一个智障儿的成功吗?你相信这世上得到最多的人正是那些不计得失的人吗? 阿甘不懂得他不能总跟着一个女人帮她打架,也不懂得一个成年人不该总把妈妈的话挂在嘴边。阿甘什么都不知道,他只知道凭着直觉在路上不停地跑,并且最终他跑到了终点。 另外,《阿甘正传》 还会教给你一个男人必须具
2009-06-17 10:53:00 2264
原创 面试相关的一些总结
刚刚和x聊完,可惜x老大一时兴奋,没有记得我说的这么多关键的东西。不过正好,我需要总结一下,趁此机会。 Ø 英语1.口语和听力是重要的,词汇和语法是无关紧要的。首先是要敢说出来,能够交流技术方面的英语;能听懂老外的话最好,听不懂也没关系,直接pardon I do not catch you;但是不能、千万不能猜,否则会死的很惨。2.做个简单的自我介绍,我只写了150字,背
2009-06-16 17:08:00 1055
原创 十年总结之 第一年1999
万事开头难。如果这个算是开头的话,那还行,不是太难。 和很多人一样,小学6年(和老师关系特别铁,舍不得放人的除外),初中3年,高中3年(非要读4年的小谁不算啊),大学4年, 熬到1999年大学毕业。如果有机会的话,把这么多年都总结一下,肯定可以出书了,叫《日子》,如果有重名的话,就叫《月子》,再有重名的话,我就叫《明朝那些事儿》。 我是计算机系的,但是到了毕业的时候却不知道什么是编
2009-06-16 14:02:00 1073
原创 收到offer,庆祝~
S真是高效率,太nb了,佩服。第一周周五2009.06.05 16:26,在CSDN上面看到jd,二话没说就发了cv。(介个不是我的风格啊,以前可是要详细的考察,然后再拖一拖,呵呵)。2009.06.05 17:00,半小时后(效率太高了),S的哥们就给我打电话,聊了10分钟的技术,看得出来对我还是非常感兴趣。2009.06.05,十几分钟后,hr小姑娘打电话,约我周一去面。我说
2009-06-15 16:38:00 1255
转载 C与C++的static关键字的分析
转贴一个jj的文章,写的非常非常清楚。【原文】http://my.donews.com/ben2/2006/02/28/c%E8%AF%AD%E8%A8%80%E4%B8%ADstatic-%E5%8F%98%E9%87%8F/ 【我的总结】1)、变量会被放在程序的全局存储区中,这样可以在下一次调用的时候还可以保持原来的赋值;而且会被赋初始值。这一点是它与堆栈变量和堆变量的区别
2009-06-08 09:38:00 983
原创 八皇后详解
【历史】八皇后问题是一个古老而著名的问题,是回溯算法的典型例题。该问题是十九世纪著名的数学家高斯1850年提出:在8X8格的国际象棋上摆放八个皇后,使其不能互相攻击,即任意两个皇后都不能处于同一行、同一列或同一斜线上,问有多少种摆法。高斯认为有76种方案。1854年在柏林的象棋杂志上不同的作者发表了40种不同的解,后来有人用图论的方法解出92种结果,事实上就是有92种解法。 【问题】初
2009-06-08 09:29:00 6009
转载 Win32 线程通信
在网上找到一个关于windows下面的线程间通信的介绍文章,感觉些的比较好,而且对mutex和critical section进行了非常清楚的分析,做个mark,随时参考:深入浅出Win32多线程程序设计之线程通信 http://www.kuqin.com/windows/20070908/943.html
2009-06-03 10:56:00 1016
原创 学习的阶段成果和方向
今天,和小陶聊天,本想问问Linux系统的架构方面的知识,可惜他也不懂,bs一下;只是说要把Linux开发学好,然后看内核,才是正确之道。不过,聊天过程中,发现了更多的收获:对前一段时间的成绩,掌握的知识,未来的方向,清晰了很多,也比原来乐观多了。现在:熟悉Linux环境下的开发,gcc/g++, gdb;Windows和Linux下的多线程,多进程,内存管理;(qt和gtk不会,
2009-06-01 10:25:00 817
转载 把Vim改装成一个IDE编程环境
这个同学非常有耐心,也有爱心,把自己的心得分享给了我们。主要的就是说把vim做得更加适合于windows开发人员的习惯,并增加了很多好用的、方便的功能和界面: http://linux.chinaunix.net/techdoc/beginner/2009/04/30/1109680.shtml 非常好。
2009-05-25 17:47:00 585
原创 守护进程
这里是一些守护进程的概念:http://www.yuanma.org/data/2009/0326/article_3583.htm 这里是实现的示例代码:http://zhidao.duote.com/qs/568.html 一般说来,守护进程会往系统写一些消息,而不会出现UI,那么写消息和看消息的方法是:1)对于C++用到的API是Syslog(int priori
2009-05-25 11:12:00 589
转载 使用samba用linux连接windows
1,安装samba,在/etc/init.d/和/etc/samba2,testparm测试是否正常3,启动服务./smb start./nmb start4,连接smbclient -L 192.168.1.1 -- 测试连接smbclient //192.168.1.1/winsock -- 真正连接5,一些常用命令cd, get, mget, ls, pu
2009-05-20 15:35:00 867
原创 《用TCP/IP进行网际互联》学习笔记3 - 附录
挑选了一些我认为比较重要的词汇,整理到这里,顺便记忆一下。附录:网际互联术语和缩写词汇² 127.0.0.1:用于测试的IP回环地,不向网络上发送² 5-layer reference model:五层参考模型,即TCP/IP参考模型² 576(MTU):IPv4的主机和路由器必须要处理的最小数据报大小² 7-layer reference model:七层参考模型,
2009-05-19 15:12:00 1660
原创 fork解析
从windows过来,对fork早有耳闻,但是想理解,还是有点难度。 找来一些文章和示例代码:http://www.wangchao.net.cn/bbsdetail_71709.html 推荐,代码还算清晰,结论明确http://hi.baidu.com/connor/blog/item/4874d20925faa18ad1581b3d.html 有点乱,需要自己整理思路
2009-05-18 11:14:00 774
转载 可重入函数与线程安全函数
全文参见 http://www.eefocus.com/article/09-04/71618s.html 中心思想是:线程安全函数:一般说来,一个函数被称为线程安全的,当且仅当被多个并发线程反复调用时,它会一直产生正确的结果。 可重入:程序执行到某个函数foo()时,收到信号,于是暂停目前正在执行的函数,转到信号处理函数,而这个信号处理函数的执行过程中,又恰恰也会进入到刚刚执行
2009-05-15 10:44:00 888
原创 《用TCP/IP进行网际互联》学习笔记2 - 应用部分
《用TCP/IP进行网际互联》学习笔记2 - 应用部分 20 客户-服务器交互模式(C/S)1) 服务器打开熟知端口,等待客户登录。客户则任意分配一个端口号。2) 服务器持续不断的、并发的等待客户请求并响应。而客户生命周期有限。 21 套接字接口(Socket)1) 套接字(Socket)API最初作为BSD unix的一部分出现,它是协议与应用软件之间的
2009-05-13 13:42:00 1580
原创 《用TCP/IP进行网际互联》学习笔记1 - 协议部分
《用TCP/IP进行网际互联》 by Douglas E. Comer1 引言与概述1. TCP/IP internet protocol suite,也叫做TCP/IP协议栈。它给应用程序提供两大类服务:1)无连接分组交付(Connectionless Packet Delivery Service),单独传递每个分组,不保证有序、可靠,但是效率高;2)可靠的数据流运输服
2009-05-12 10:59:00 4207
转载 linux下的文件结构介绍
转自:http://www.guangdongdz.com/club/details_15843.html linux下的文件结构,看看每个文件夹都是干吗用的/bin 二进制可执行命令 /dev 设备特殊文件 /etc 系统管理和配置文件 /etc/rc.d 启动的配置文件和脚本 /home 用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示 /lib
2009-05-06 15:38:00 733
转载 suse Linux下安装配置Telnet服务的方法
来源:http://www.linuxeden.com/html/netadmin/20071026/36551.html 1. 检测SuSE的Telnet服务是否已安装(默认安装时是不安装Telent-Server的。) # chkconfig –list在列表中,有如下显示,表示telnet服务已安装。xinetd based services:telnet:
2009-05-06 14:05:00 963
原创 孙延群病休,上投彻底完蛋了
前有吕俊离职,我没太当回事,而当时中国优势也特意火了一小阵子,结果大跌的时候连裤叉都没穿就在裸泳。上个月发现,有孙延群在,上投好像也还行,至少有个当家花旦支撑着。现在孙老大被累倒了,看来上投真的是完蛋了:黄牌转红牌,彻底退出上投的关注。祝孙老大早日康复,不为基金,为了自己的身体。
2009-04-28 14:23:00 781
转载 局域网的IP地址选择
问为什么内部IP地址要设成以192.168.0.开头的,设成其它的IP不可以吗?来源:http://203.208.37.104/search?q=cache:2i2VOio2l38J:zhidao.baidu.com/question/5262397.html+%E4%B8%BA%E4%BB%80%E4%B9%88%E5%B1%80%E5%9F%9F%E7%BD%91ip%E5%9C%B0%
2009-04-28 10:15:00 1688
原创 linux与windows互相访问
我用的是OpenSuse, 共有3个问题:1,linux远程访问windows,可以使用suse自带的krdc访问windows,就像windows软件一样方便。还有其他的,比如rdesktop,也可以,不过反正是越来越方便。2,windows远程访问linux,可以参考http://blog.cnw.com.cn/index.php/36932/viewspace-6616。3,li
2009-04-24 17:46:00 867
转载 SSH和SSL的区别
二者的区别不是非常了解,即使看了下面的两个文章之后,也还算不上了解;做过mark,将来再看。 What is the difference between SSH and SSL http://bbs.et8.net/bbs/showthread.php?t=311488 网络安全协议比较(PKI SSH SSL SET) http://blog.csdn.net/meiy
2009-04-22 15:47:00 4814 1
原创 sniff网络嗅探器原理
该文章部分内容参考自:http://topic.csdn.net/t/20011113/19/369064.html 和 MSDN。 [简介]SNIFF,就是嗅探器,窃听器,它工作在网络的底层,在网络上监听数据包来获取敏感信息。从原理上来说,在一个实际的系统中,数据的收发是由网卡来完成的,网卡接收到传输来的数据,网卡内的单片程序接收数据帧的目的MAC地址,根据计算机上的网卡驱动程序设置的
2009-04-20 14:23:00 11415
原创 对象私有数据的可访问性
部分答案参考自:http://zhidao.baidu.com/question/63916870.html?fr=qrl这个问题说起来比较绕。而且以前在一个笔试题目中出过copy构造函数,也和这个问题有关。 [问题]:私有成员(数据与函数)在什么场合可以被访问?类定义中是肯定可以的。访问该类的对象的私有成员那? [代码]class A {public: A
2009-04-20 08:31:00 2193
原创 端口扫描原理与代码
1)原理摘自 百度 红客吧 http://tieba.baidu.com/f?kz=90077233TCP connect() 扫描是最基本的TCP扫描。操作系统提供的connect()系统调用,用来与每一个感兴趣的目标计算机的端口进行连接。如果端口处于侦听状态,那么connect()就能成功。否则,这个端口是不能用的,即没有提供服务。这个技术的一个最大的优点是,你不需要任何权限。系统中
2009-04-17 16:59:00 6559 2
原创 select模型 示例代码
在学习第一个,也是最简单的I/O模型的时候,从原理看,感觉非常简单,但是详细的跟踪并解析了一下代码:http://www.codeproject.com/KB/IP/ScalableClientServer.aspx发现,不明白的事情还是非常的多。所以把这段代码的骨干抽取出来,并附上解析过程,希望能够帮助理解。 简介:一个server,监听某一端口来的所有连接以及从该端口来的信
2009-04-17 09:15:00 2242
原创 select,多路同步I/O模型
1)原理介绍。select(选择)模型是socket中最常见的I/O模型。之所以称其为“select模型”,是由于它的“中心思想”是利用select函数实现对I/O的管理!select模型使那些想避免在套接字调用过程中被无辜“锁定”的应用程序,采取一种有序的方式,同时进行对多个套接字的管理。设计这个函数,唯一的目的便是防止应用程序在套接字处于锁定模式中时,在一次I/O绑定调用(如send或rec
2009-04-16 11:23:00 3240
原创 socket的I/O模型
这个文章详细的形象的解释了windows的6种I/O模型,同时把linux下的epoll也大致进行了解释:http://topic.csdn.net/u/20080702/20/43466EA1-0F44-4B07-ACFD-7431A1969C20.html这个文章大致介绍了select模型:http://hi.baidu.com/linuxkernel/blog/item/ffb7663e
2009-04-16 09:22:00 1107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人