自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

糊涂虫

心如止水

  • 博客(14)
  • 收藏
  • 关注

翻译 点滴unix编程艺术

<br />Brooks's Law predicts that adding programmers to a late project makes it later. More generally, it predicts that costs and error rates rise as the square of the number of programmers on a project.

2011-04-10 19:53:00 437

转载 [转]汉字编码问题

软件有三种途径来决定文本的字符集和编码:最标准的途径是检测文本最开头的几个字节,如下表:开头字节 Charset/encodingEF BB BF   UTF-8FE FF     UTF-16/UCS-2, little endianFF FE     UTF-16/UCS-2, bigFF FE 00 00  UTF-32/UCS-4, little endian.00 00 FE FF  UTF-32/UCS-4, big-endian.

2010-07-30 00:11:00 496

转载 如果让我重做一次研究生--王汎森

导读:   这个题目我非常喜欢,因为这个题目,对大家多少都有实际的帮助。如果下次我必须再登台演讲,我觉得这个题目还可以再发挥一两次。我是台大历史研究所毕业的,所以我的硕士是在台大历史研究所,我的博士是在美国普林斯顿大学取得的。我想在座的各位有硕士、有博士,因此我以这两个阶段为主,把我的经验呈现给各位。 我从来不认为我是位有成就的学者,我也必须跟各位坦白,我为了要来做这场演讲,在所里碰到刚从美国读完

2008-06-08 18:09:00 545

原创 将webcrawler修改为针对万方数据某一期刊的crawler

实际上任务是利用任意一款好用的爬虫程序将期刊内容爬下来。不过万方数据上的期刊存储很规范,因此可以建立一个函数利用IndexOf配合Substring取得所需要的链接,这也让我明白了为何原来最初crawler程序里有个FindSpecificLink函数了。寒假写的程序使用的是正则表达式匹配,这是为了方便下载一个页面的所有内容--文字、媒体等,而现在目标很明确,就是要下载期刊摘要。具体改动的

2008-03-18 10:14:00 804 1

原创 对DBD::mysql问题的探究

最近一段时间在研究perl的基本语法以及相应的cgi程序,在此过程中配置了一些相关环境。 环境:winxp+perl+apache+php+mysql   配置和测试的过程开始时很顺利,但是到最后一个环节--配置dbd::mysql时出了问题。现总结如下: 由于要在服务器中测试以下这段代码,DBI和DBD::mysql两个模块就应当正确安装,否则

2008-03-07 02:32:00 1158

原创 JWebPro工作过程图

导读:昨天读完了程序,现在把程序运行的草图画了出来。图片分辨率:1300*618。 

2008-02-27 19:16:00 817 2

原创 几个名词(robots.txt/POST/Phrase chunking)

导读:最近在走流程的时候遇到一些名词,之前并没有接触过,现在将一部分收集起来以便以后查阅。1、 robots.txtrobots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如

2008-02-27 13:25:00 758

原创 (悲痛)数据全部误删除!!

狂晕!不小心把做毕设以来所有资料误删了……具体怎么个误法在这儿就不提了,真tm丢人!做好的爬虫程序是找不回来了,还好在前面文章中做了记录,根据记录再做一个也是可能的。而且程序已经发给dr. wang了,以后用到了再找他要也不迟,还算心中有数……不过有两篇文章太重要了,有了这次教训,我必须要把链接引过来,以免再度因大脑断电而蒙受撕心裂肺的损失。1、搜索引擎经验总结(http://blog

2008-02-23 01:32:00 937 1

原创 首次正确测试JWebPro的一点感受

导读:老师将这个程序交给我,曰:“集中精力将其搞清楚”。这使我不得不一下子想起来上学期痛苦的KWIC实验……  its okay now   :)      老实说,刚一拿到程序的时候就像吃了一闷棍。首先文章中涉及的术语大都没听过,它给我的第一印象就不好。其次程序下载下来,由于没经验加之缺乏一个重要条件,程序每每运行便处于fail或者狂报异常的状态。再次……实际上dr wang同时还给了

2008-02-22 01:37:00 799

原创 2月18号给dr. wang 的回信

王老师您好,      附件中的程序实现了下载大多数链接的功能,采用了目录层次存储下载的页面。 此番对程序的修改,摒弃了FindLink函数,因为这个函数要想实现对各种链接(包括相对链接地址)的解析,需要考虑到各种超文本标记语言的表达形式和各种不同页面所采取的不同策略,复杂度相当高。我认识这种方式可以辅助完备正则表达式解析的遗漏部分。正则表达式是我在网上找到的一串用于爬虫程序的字符串。

2008-02-18 22:23:00 924

转载 A Simple Crawler Using C# Sockets

导读: dr. wang起初发给我的程序,今天我在codeproject上发现它了,作者讲解很详细,内容很强大。转过来慢慢研究。另外,我还读了几篇文章,心中顿生“歹意”,这几篇文章对我的帮助很大,使我明确了下一步工作方向。A Simple Crawler Using C# SocketsBy Hatem MostafaA multi-threaded simple crawle

2008-02-18 00:15:00 1384

原创 难熬的几天

列举遇到的问题:1、开机启动即报错,从网上搜查了良久,有类似病症的解决方案,可我照猫画虎还是不行。 2、system.dll报的异常。这个异常出现在dr. wang给我的那个比较“豪华”的爬虫程序中,以前可以编译,刚刚换了条内存却怎么也不能运行了。异常内容如下:未处理的“System.InvalidOperationException”类型的异常出现在System.dll中。 其他

2008-02-16 04:19:00 744

原创 2月10号给dr. wang 的回信

王老师您好,      你给我的那个爬万方数据的程序有错误,我发现那个程序用的原型是minicrawler,于是我又把你先前发来的这个程序研究了一下,后来发现还是有错误(似乎被人做了手脚)。错误大致集中于寻找链接这一函数中,我上网找到了原版的minicrawler程序下载下来研究了一下,终于明白findlink是怎样工作的,并且关键的parse操作是由一个叫做IndexOf的方法实现,这一方法

2008-02-11 01:11:00 915

原创 .Net上手之初

今天dr. wang又发来两封邮件,是一个关于万方数据库(wanfangdata)的爬虫程序。2号他给我发了一个带前台界面的爬虫,也是.net写的。由于机器上没有安装visual studio,系统报告说缺少.net framework 2.0 ,没办法,把两个多G的大笨家伙弄下来装上了。结果事情并不是很顺利,对于像我这种之前只用过vb、vc、delphi、JVM其中简单几个工具的人来说,

2008-02-05 18:28:00 889

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除