自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

crab_hn的专栏

分布式爬虫python版

  • 博客(13)
  • 收藏
  • 关注

原创 最近需要理顺一下面向对象的根本问题

1、为什么现在的设计会倾向于面向接口?2、Aop给面向对象带来了什么好处?3、J2EE原来的违背面向对象本质的设计模式是不是已经不适合现在的使用?4、实体没有行为,专门出现行为对象,这个是设计的倒退吗?5、究竟什么样的设计能够真正适合我们使用????????

2005-11-17 14:38:00 4226 1

原创 工作碰到的问题解决积累

eticket项目启动后没有办法用浏览器浏览, 但是在tomcat的启动过程中看不到错误. 解决: 配置文件xml被破坏了, 用别人机器上的配置覆盖回来.oracal的客户端无法连接. 解决: 由于不是用域登陆所以在sqlnet.ora中少了NAMES.DEFAULT_DOMAIN = HNA.NET这一行, 补上就可以了.作代码生成器的过程中,碰到了eclipse调试的时候在断点停不下来的问题,

2005-07-15 11:20:00 4474 3

原创 论文有了初稿了,欢迎下载阅读,欢迎提提意见

下载地址:http://sopai.net/SoPai/attach/bbscon/%C2%DB%CE%C4%B3%F5%B8%E5.pdf?B=235&F=M.1118461099.A&attachpos=298&attachname=/%C2%DB%CE%C4%B3%F5%B8%E5.pdf

2005-06-11 11:53:00 6185 3

原创 使用tortoiseSVN心得

原来本地的仓库的路径前面一定要加上file:///

2005-05-30 10:41:00 4925

原创 正在打算贴出我的代码

等搞定毕设,我就把我的代码和论文一起贴出来给大家看看。

2005-05-24 09:19:00 5387 1

原创 原来写程序还是那么快乐的

回来考试考完了,程序也差不多了,这样大学的毕业事务就这样的解决了,剩下的就是好好完善程序和写论文了,都是自己实现的,而且也关注了很久这个爬虫的技术,我想我的毕业设计是很合格的了。兴趣和工作的结合,激情都是一个程序员提高的关键。也许我要做很久的程序员,也许很久~~~

2005-05-04 22:14:00 6191 4

原创 关于源代码编辑的思考

对于程序员这样一个手艺人的群体来说,文本就是他的加工材料,是他思想的延伸,编辑器就是加工工具,是他双手的延伸。那么如果这样一个手艺人要达到一个高效率的目的,那么首先要有一个好的编辑器和键盘,那么eclipse和emacs可以说是典范,但是如果你只是一个普通的使用,不能充分发掘这个编辑器给你的种种的权利和方便那么等于没有用。那么你有没有真正了解你的编辑器,有没有充分发挥他的潜能,有没有很好的定制你自

2005-05-01 08:36:00 4275

原创 大学的最后的考试的结束

由于上个学期缓考了两门考试,网络和编译,幸亏老师比较仁慈,都比较简单,虽然没有花多少时间就搞定了,虽然没有学得深入但是他们给我留下的印象足够我以后的使用,特别是编译的学习,对正则表达式和自动机的关系都理清楚了,说不定以后我也来实现一个python类的东西玩玩。这次我也感觉到了自己对那些重复性的东西的厌恶,总是喜欢去尝试新的东西,但是总是浅尝辄止,这次想通了一个问题就是:也许对一个东西的熟练使用也许

2005-04-30 09:41:00 5107

原创 实习经历

实习了两个周了,渐渐融入了团队,可是要考试,只能又要回学校考试一趟。公司不错,开发的氛围也很好,而且我是在家,这个环境也比较适合,皮肤都好很多。公司还安排在宾馆住,真是有点受宠若惊了。我们因为是开发web,所以机器很好,1g内存,3.x的cpu,我觉得很夸张了,可是更夸张的是有个同事说,这个内存还是小。还有一个比较特别的是我们一定要衬衫领带皮鞋,这个和普通的软件公司就有了一定的区别了,开始有点不习

2005-04-19 15:05:00 5367 1

原创 毕业设计中怎样用python写一个搜索引擎的分布式爬虫---异样的美感

用python编写分布式爬虫1、 网络连接需要持续连接(persistent connection),DNS解析的瓶颈(先查本地DNS缓存)实现方法:基于python httplib(对http1.1完成对持续连接的支持(python的httplib完全支持http1.1),如果不是http1.1那么可以使用urlopen对其进行一次连接)并对其socket对象进行控制,关键是加入对读取DNS本地

2005-03-20 21:46:00 21249 1

原创 nutch优雅的插件系统,nutch中文推广的缺陷

        今天看了看nutch wiki上的一篇爬虫解析的文档,顺带发现了它里面有一个设计的不错的plugin系统,这个才是核心所在,我觉得nutch的偏向插件的设计思想十分的明智,从emacs到eclipse那一个不是因为插件系统的强扩展性而流行壮大的呢?        而且这样的设计区分开了两类程序员:系统程序员和应用程序员。前者可以专心编写高效可靠的核心,后者就可以给整套系统带来各种各

2005-03-16 21:51:00 5169

原创 来一点风花雪月

        其实最近一段时间一直泡在凯迪的猫眼看人看政治贴来的,对于风花雪月越来越不敏感了,也许自己在处于一个过渡阶段,四五月份就要去实习了,希望能挽回自己的一点点的激情。        这么大了还没有谈过一次恋爱也许算是一种缺憾吧,潜意识中对于女生的那种自卑感,虽然表面上看不出来可是真正面对自己喜欢的女生的时候就会有点不知所措,要不就是嬉皮笑脸,要不就是不敢说话。        或许我看上似

2005-03-16 12:22:00 3559

原创 毕设过程中的一点小心得

1、阅读英文文档,代码心得: 充分使用word,阅读时用金山词霸,有生词及时标注在旁边,并充分利用字体大小颜色来提醒自己。 2、不听音乐原则: 音乐破坏人的创造力,尤其是在作一些创作型的工作时,用的是右脑,而听音乐刚好也是用的右脑,所以传说中的程序员是不用听音乐的^_^。 3、不被电话qq打断原则: 用email,email确实比较适合开发交流。(可以自己调节处理email的时间,而不是经常被打断

2005-03-15 15:54:00 4737 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除