自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

转载 LINQ的Deferred Execution可能导致的坑

用LINQ时被Deferred Execution的特性给坑了,于是写文章来纪录下>_< Deferred Execution简单来说就是写一个不包含强制马上执行命令(如:Count, Max等)的LINQ表达式时,它只会将表达式保存起来。真正执行的时机则是在真正使用时。具体例子见下图: 18行中的result没有保存结果,反而保存query本...

2013-05-11 16:45:00 239

转载 一次模拟面试的收获

与我一个team的某外国人(以下简称N)在今天遇到了一个不错的问题,就问我要来一次模拟面试吗。虽然同为实习生,但N被面试经验丰富,而且还去面别人。于是果断说了句,sure。问题如下(为了方便观看,翻译成中文了):有一个整数数组,一个该数组的子数组SA,求一个满足以下条件的子数组1. 子数组包含SA2. 子数组的和要为03. 子数组要小4. 子数组要连续 ...

2013-04-11 21:03:00 254

转载 用C++发邮件

近段时间,实验室电脑的IP频繁地改变,搞得想用远程偷下懒都不行。这时想到的解决方法有:静态IP,动态域名,自己解决。静态IP虽然可以自己指定,但一关机后,与对方冲突就完了,作罢。免费的动态域名又要手机认证,也作罢。最后只能自己解决。解决方案是写一个程序不断地检测本机IP,如果改变了,就发邮件通知。检测本机IP很简单,就略过。这里介绍下怎样发邮件吧。 发邮件前,需...

2013-01-01 13:41:00 1929

转载 ZeroCrawler V0.1:多线程爬虫

ZeroCrawler V0.1是一只简单的多线程爬虫,其基本架构如下: 整个程序是这样运作的:Scheduler不断从Queue取出URL,如果发现可用的爬虫(空闲线程),那么就将URL分给一只爬虫。然后爬虫完成下载网页,抽取URL,保存网页的工作后就回归Scheduler(变回空闲线程)。直到Queue没有待爬取的URL,并且所有爬虫都空闲下来,就停止程...

2012-11-27 20:57:00 184

转载 《程序员面试宝典》(第三版)笔记整理

不怎样的一本书,具体表现为:1)该详细讲解的地方,或者一笔带过或者讲得不全面或者讲些不相关内容;2)该略过的地方,反而详细起来;3)有一部分错误,如sizeof不计算static变量的大小之类的。虽说如此,收获还是有的——知道了在笔试中常见的知识点。这里的笔记就是对我不熟悉或者理解不全面的知识点去Google和查书而来的。C++的关键字1. 使用extern "C"的...

2012-10-31 10:03:00 242

转载 《C专家编程》总结

开始读《C专家编程》之前,有一个很担心的问题:94年出的讲语言的书,在现在(2012)还有多少是适用的。因此,一边读,一边用VS2010做实验。最后发现大部分内容都还在用。读完后,觉得最精彩的部分有二:一是讲解如何理解声明,二是深入地讲解数组名与指针。下文是将看书过程中所做的笔记进行的整理。p.s: 以下代码均在VS2010测试过1. 使用无符号数时要特别注意(...

2012-09-03 17:26:00 268

转载 超小开源爬虫Crawler学习笔记

近日,想写一个小型的爬虫框架,可惜的是,zero并没有写框架的经验。因此有必要找一个现有框架来参照下。GOOGLE了下,发现Crawler最适合作为将要写的框架的参照物。Crawler是一个简单的爬虫框架,它实现了爬虫的共同部分,如URL拼接,网页编码等,使得用户可以专注于提取网页内容(原文:Crawler is a simple Java web crawler/spide...

2012-08-16 09:35:00 180

转载 当爬虫被拒绝时(Access Denied)

由于要准备测试数据,不得不大量爬取某个网站的内容。为了防止被封,特意将爬虫设计为单线程同步的爬虫。结果在爬了大约3万个页面的时候,对方发回Access Denied。等一段时间后再启动爬虫,结果还是Access Denied。这时才明白这样的想法太天真了,当初就应该找其它方法来避免才对。而本文则记述了这些其它方法。1. 伪装user agent User ag...

2012-07-31 16:55:00 1373

转载 CLAPACK在Windows上的安装与使用

1. CLAPACK简介 要了解CLAPACK,就要先知道什么是LAPACK。 LAPACK(LinearAlgebraPACKage)是一个高性能的线性代数计算库,以BLAS(Basic Linear Algebra Subprograms)为基础,用Fortran语言编写,可用于计算诸如求解线性代数方程、线性系统方程组的最小平方解、计算特征值和特征向量等问...

2012-07-20 22:09:00 472

转载 推荐系统相关算法(2):k-nearest neighbor

1. kNN1.1 基本的kNN模型 kNN(k-nearest neighbor)的思想简单来说就是,要评价一个未知的东西U,只需找k个与U相似的已知的东西,并通过k个已知的,对U进行评价。假如要预测风炎君对一部电影M的评分,根据kNN的思想,我们可以先找出k个与风炎君相似的,并且对M进行过评分的用户,然后再用这k个用户的评分预测风炎君对M的评分。又或者先找出k个与M...

2012-07-13 18:37:00 695

转载 谱聚类(spectral clustering)

1. 谱聚类 给你博客园上若干个博客,让你将它们分成K类,你会怎样做?想必有很多方法,本文要介绍的是其中的一种——谱聚类。 聚类的直观解释是根据样本间相似度,将它们分成不同组。谱聚类的思想是将样本看作顶点,样本间的相似度看作带权的边,从而将聚类问题转为图分割问题:找到一种图分割的方法使得连接不同组的边的权重尽可能低(这意味着组间相似度要尽可能低),组内的边的权重尽...

2012-06-21 11:04:00 346

转载 推荐系统相关算法(1):SVD

1. SVD简介假如要预测Zero君对一部电影M的评分,而手上只有Zero君对若干部电影的评分和风炎君对若干部电影的评分(包含M的评分)。那么能预测出Zero君对M的评分吗?答案显然是能。最简单的方法就是直接将预测分定为平均分。不过这时的准确度就难说了。本文将介绍一种比这个最简单的方法要准上许多,并且也不算复杂的算法。 SVD(Singular Value De...

2012-05-06 20:49:00 374

转载 某笔试附加题解法

刚进博客园就在《一道面试附加题的另类求解》看到一道有趣的题,正好,偶对这题也有一些想法,因此写来分享下。题目如下:先来看第一个条件,不可用除法。要满足这个条件倒是很简单:令forward[i] = a[0] * a[1] *... * a[i]; backward[i] = a[i] * a[i+1] *...* a[N];那么b[i] = forward[i-1...

2012-04-08 17:04:00 151

转载 漫画追踪器Tracker

1. 动机 关注漫画的人肯定会发现漫画的更新时间差异非常大:有的一个星期更新一集,有的一个月更新一集,有的一季度更新一集。如果关注的是日本漫画,并且不会日文,那么更新后的漫画还要等待汉化组翻译成中文才能看。这一等,少则几小时,多则几个星期。 等得多了,就会产生这样一种想法:如果漫画更新后能通知我就好了。有的漫画网站抓住了这种想法,增加了关注的漫画更新后就发邮件通...

2012-03-15 22:15:00 233

转载 开源爬虫larbin分析

1. larbin简介(百度百科) larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人Sébastien Ailleret独立开发,用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的...

2012-02-04 23:37:00 221

转载 《编程之美》反思——启发式思考

欣赏完《编程之美》里面的巧妙解法后,我们不妨来思考下作者是怎样想到这些解法的。因为比起理解怎么做,弄清楚为什么那样想更有趣,不是吗?作者提出一个简单的解法后,总能找出一个优化方法。我认为其中的关键是联想。只要能从中联想到正确的知识,优化方法也就得到了,不是吗? 联想到正确的知识需要经验(知识)和方法。经验很重要,但方法也同样重要。以下是一些有助于联想的方法。...

2012-01-14 16:10:00 158

转载 五笔反查工具

1. 五笔反查工具 也许你会说,反查什么的,直接一个MAP容器就搞定了,有什么好说的。的确,最简单的就是这样。但即使是这样,还要准备字,五笔码,字根图,以及它们的对应关系。而这些在网上是没有现成的,也就是说要自己准备。我准备的方法是写个小爬虫,到一个五笔反查网站上将这些东西一并弄下来(具体可参考上一篇文章)。准备好最重要的部分后,如果还要弄得像样一点,就要再花一番功夫。所以说...

2011-12-25 09:32:00 222

转载 抓取一个网站特定的全部图片(JAVA)

1. 目的 用五笔时,如果碰到不会拆的字,只好换回拼音。但这样做治标不治本,于是到网上找五笔反查工具。最后发现一个不错的网站——不仅有每个字对应的五笔码,还有其字根图。可惜的是,这是一个网站。换句说,就是每次查的时候都要上网。很自然的,会想到将这个网站上的五笔码以及对应的字根图保存到本地上,再写个查询程序做成本地版的>_<2. 准备工作——网页特点分析...

2011-11-29 11:43:00 244

转载 数据挖掘10大算法(1)——PageRank

1. 前言这系列的文章主要讲述2006年评出的数据挖掘10大算法(见图1)。文章的重点将偏向于算法的来源以及算法的主要思想,不涉及具体的实现。如果发现文中有错,希望各位指出来,一起讨论。 图1 来自IDMer的文章 在这些算法中,最引人注目的自然是Google...

2011-11-12 16:13:00 428

转载 用批处理来自动化测试

近段时间在做PSO算法的优化,在测试性能时要使用CEC05的数据集。但这个数据集提供的测试函数接口十分蛋疼:以条件编译来区分一大堆同名同参数的函数。就像这样:int a;#define f1//#define f2#ifdef f1a = XX;double function()#endif#ifdef f2a = YY;double function()#e...

2011-09-26 21:09:00 279

转载 [译]搜索与优化不存在免费的午餐

原文:http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization说明:由于文章较难完全翻译,所以部分句子采用了意译的方法。此外,若发现翻译错误之外,还望指证。概述 一些计算问题使用在候选解空间中进行搜索的方法来解决。搜索算法指如何选出候选解进行评价并重复这一过程的描述。对于特定问题,不同的搜...

2011-09-12 10:27:00 214

转载 金山实习总结

这次的实习如果要用一句话来总结,那么用“漫长的开始,短暂的终结”来总结就最合适了。漫长的开始 开始之所以漫长,那是因为心里抗拒着,因为被动接受。 面试通过后,被告知在实习时使用的编程语言将是我不喜欢的JAVA,而不是热爱的C++。对于JAVA,我只是大概知道是怎样的东西,实践的情况是连Hello World都没写过。编程语言只是工具,是完成目的...

2011-08-31 16:29:00 251

转载 金山实习周记(4)——Google Cloud Print

当发现javax.print调用sun.print.Win32PrintService时,就明白到这已经是平台相关问题,当再发现共享打印机大多是host-based打印机(即本身无处理能力,只能认识点模式)时,就宣告着移植javax.print的计划彻底破产。这样就只剩下最后一个方案——使用第三方库。经过各种考虑,最后选用了Google Cloud Print(以下简称GC...

2011-08-01 20:22:00 211

转载 金山实习周记(3)——移植

一次编写,到处运行。这是JAVA宣传中多么诱人的一个特点。但这句话显然把一个重要的条件给漏掉了。正确的说法应该是一次编写,在相同的JVM上到处运行。因为当JVM的版本不同时,这句话就幻灭了。移植 完成PC版的局域网打印程序后,剩下的工作就是移植到Android上。但马上就发现不对劲的地方——Android没有javax.print库。对于这个问题,提出了好几个...

2011-07-23 14:04:00 96

转载 金山实习周记(2)——沟通

也许别人血一般的教训只是一个过目而忘的警示,不亲身体会过就不会知道其真正的恐怖之处。 早就在无数的文章中看到不少因为沟通而搞得焦头烂额的事件。自己也认为从中吸取了足够的教训,但。。。。。。无线打印 老大交给我的那个小项目是Android上的无线打印程序。作为一只没接触过Android,没用过无线上网的菜鸟此时犹如处于无尽的黑暗中,只能到处乱撞...

2011-07-16 11:38:00 206

转载 金山实习周记(1)——初次任务

上星期五刚到金山报到时是兴奋的,信心满满的,但现在。。。初次任务 在报到之后,老大让三个方向(UI,底层IO,算法)的人给我分别介绍是做什么的。由于在这三个方向中,我最熟悉算法,因此果断选算法。之后,老大讲解了线路图:看文档->优化内存->搞算法。 既然决定了线路,那就踏出第一步——看文档。由于文档很大一部分都是细节性内容,所以本着以后用到...

2011-07-09 11:30:00 205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除