![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
毕业设计面面观
Leonkaka
吸 吸 吸
展开
-
.Net上手之初
今天dr. wang又发来两封邮件,是一个关于万方数据库(wanfangdata)的爬虫程序。2号他给我发了一个带前台界面的爬虫,也是.net写的。由于机器上没有安装visual studio,系统报告说缺少.net framework 2.0 ,没办法,把两个多G的大笨家伙弄下来装上了。结果事情并不是很顺利,对于像我这种之前只用过vb、vc、delphi、JVM其中简单几个工具的人来说,原创 2008-02-05 18:28:00 · 923 阅读 · 0 评论 -
对DBD::mysql问题的探究
最近一段时间在研究perl的基本语法以及相应的cgi程序,在此过程中配置了一些相关环境。 环境:winxp+perl+apache+php+mysql 配置和测试的过程开始时很顺利,但是到最后一个环节--配置dbd::mysql时出了问题。现总结如下: 由于要在服务器中测试以下这段代码,DBI和DBD::mysql两个模块就应当正确安装,否则原创 2008-03-07 02:32:00 · 1166 阅读 · 0 评论 -
JWebPro工作过程图
导读:昨天读完了程序,现在把程序运行的草图画了出来。图片分辨率:1300*618。原创 2008-02-27 19:16:00 · 823 阅读 · 2 评论 -
几个名词(robots.txt/POST/Phrase chunking)
导读:最近在走流程的时候遇到一些名词,之前并没有接触过,现在将一部分收集起来以便以后查阅。1、 robots.txtrobots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如原创 2008-02-27 13:25:00 · 769 阅读 · 0 评论 -
(悲痛)数据全部误删除!!
狂晕!不小心把做毕设以来所有资料误删了……具体怎么个误法在这儿就不提了,真tm丢人!做好的爬虫程序是找不回来了,还好在前面文章中做了记录,根据记录再做一个也是可能的。而且程序已经发给dr. wang了,以后用到了再找他要也不迟,还算心中有数……不过有两篇文章太重要了,有了这次教训,我必须要把链接引过来,以免再度因大脑断电而蒙受撕心裂肺的损失。1、搜索引擎经验总结(http://blog原创 2008-02-23 01:32:00 · 948 阅读 · 1 评论 -
首次正确测试JWebPro的一点感受
导读:老师将这个程序交给我,曰:“集中精力将其搞清楚”。这使我不得不一下子想起来上学期痛苦的KWIC实验…… its okay now :) 老实说,刚一拿到程序的时候就像吃了一闷棍。首先文章中涉及的术语大都没听过,它给我的第一印象就不好。其次程序下载下来,由于没经验加之缺乏一个重要条件,程序每每运行便处于fail或者狂报异常的状态。再次……实际上dr wang同时还给了原创 2008-02-22 01:37:00 · 803 阅读 · 0 评论 -
难熬的几天
列举遇到的问题:1、开机启动即报错,从网上搜查了良久,有类似病症的解决方案,可我照猫画虎还是不行。 2、system.dll报的异常。这个异常出现在dr. wang给我的那个比较“豪华”的爬虫程序中,以前可以编译,刚刚换了条内存却怎么也不能运行了。异常内容如下:未处理的“System.InvalidOperationException”类型的异常出现在System.dll中。 其他原创 2008-02-16 04:19:00 · 748 阅读 · 0 评论 -
2月18号给dr. wang 的回信
王老师您好, 附件中的程序实现了下载大多数链接的功能,采用了目录层次存储下载的页面。 此番对程序的修改,摒弃了FindLink函数,因为这个函数要想实现对各种链接(包括相对链接地址)的解析,需要考虑到各种超文本标记语言的表达形式和各种不同页面所采取的不同策略,复杂度相当高。我认识这种方式可以辅助完备正则表达式解析的遗漏部分。正则表达式是我在网上找到的一串用于爬虫程序的字符串。原创 2008-02-18 22:23:00 · 940 阅读 · 0 评论 -
A Simple Crawler Using C# Sockets
导读: dr. wang起初发给我的程序,今天我在codeproject上发现它了,作者讲解很详细,内容很强大。转过来慢慢研究。另外,我还读了几篇文章,心中顿生“歹意”,这几篇文章对我的帮助很大,使我明确了下一步工作方向。A Simple Crawler Using C# SocketsBy Hatem MostafaA multi-threaded simple crawle转载 2008-02-18 00:15:00 · 1397 阅读 · 0 评论 -
2月10号给dr. wang 的回信
王老师您好, 你给我的那个爬万方数据的程序有错误,我发现那个程序用的原型是minicrawler,于是我又把你先前发来的这个程序研究了一下,后来发现还是有错误(似乎被人做了手脚)。错误大致集中于寻找链接这一函数中,我上网找到了原版的minicrawler程序下载下来研究了一下,终于明白findlink是怎样工作的,并且关键的parse操作是由一个叫做IndexOf的方法实现,这一方法原创 2008-02-11 01:11:00 · 922 阅读 · 0 评论 -
将webcrawler修改为针对万方数据某一期刊的crawler
实际上任务是利用任意一款好用的爬虫程序将期刊内容爬下来。不过万方数据上的期刊存储很规范,因此可以建立一个函数利用IndexOf配合Substring取得所需要的链接,这也让我明白了为何原来最初crawler程序里有个FindSpecificLink函数了。寒假写的程序使用的是正则表达式匹配,这是为了方便下载一个页面的所有内容--文字、媒体等,而现在目标很明确,就是要下载期刊摘要。具体改动的原创 2008-03-18 10:14:00 · 812 阅读 · 1 评论