自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(18)
  • 收藏
  • 关注

原创 asp模板引擎终结者(WEB开发之ASP模式)

作者: 孙立 Email: 17bizAT126.com写于:2006/3/5版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明http://sunli.cnblogs.com/archive/2006/03/05/343095.html关键词:ASP 模板摘要: 阐述一种全新的ASP模板引擎,实现代码(逻辑)层与HTML(表现)层的分离.这种模板实现方法避免了一

2006-03-05 21:13:00 1881

原创 图书搜索引擎

采用多种方法开发http://book.ku6.cn/spider采用c#开发 ADSL自用电脑做的服务器,如果你打不开可能我关机了,可能我重新启动了!

2005-10-24 21:24:00 1290

原创 计划做个电子书资源搜索搜索

昨天晚上索引了3000多视频教程和电子书籍,抓取数据的软件用c#开发,刚看C#,是翻着书弄出来的,感觉c#处理东西还是蛮方便的!

2005-10-24 12:42:00 1062

原创 完成一个ASP在线查IP来源的程序

使用纯真的IP数据库下载:http://down.chinaz.com/s/16651.asp

2005-10-23 15:37:00 2071 5

原创 spider对文档内容的分析又一方法

   网页文档内容的分析   一般可以分为内容提取,title标签,keywords等对页面内容的分析。 其实可以在我们的spider的url连接来源的innertext进行分析,我觉得这个准确度还是比较大的有的html文档根本就不能分析出什么内容,比如一个flash页面,spider是很难分析内容的,如果跟url来源innertext建立关系,那么就可以这个flash的具体内容了 

2005-10-05 22:51:00 1066

原创 对spider的一个改进!

    以前我在spider的url去重上使用了直接查询url数据库的方法这种方法当你在处理sohu.com首页如此多的连接的时候就意味着要查询如此多的数据库的操作速度当然时一个字慢,一个首页需要消耗几分种时间   今天晚上 我改进了下,查询操作完全放在数组中操作,速度有了很大的提高,对于sohu首页也就是几秒的时间就可以完成,时间的消耗主要就花在了下载网页的工作上。

2005-10-05 22:45:00 1094

原创 关于对sql2000查询结果进行相关度排序的测试

   sql2000的查询结果进行相关度排序,听起来好象很吸引人,不过真的是可以实现的。    上午上网看到了一篇利用微软index server来做全文查询的文章(这个以前也看到过,在计算机管理中也自带了这样一个查询功能)我的IIS默认web服务器在g:/wwwroot下其中有10万多的html文档   测试:strSearch = "SELECT DocTitle, Path, FileNam

2005-10-04 18:55:00 1173

原创 关于最近mp3搜索的版权问题

           baidu最近可以说是惹到最大的麻烦了,而且这个这个麻烦使baidu觉得非常愿望,各大唱片公司都将矛头指向baidu,看起来yisou.zhongsou,sina,sogoui提供的音乐搜索确没有遇到麻烦,不过一旦baidu受挫,其他几个也就快寿终正寝了.          baidu一直说自己只是提供连接,唱片公司找错对象,其实baidu还是想把MP3搜索继续搞下去,如果我

2005-09-24 23:25:00 1103 1

转载 计算机文本分类和模糊聚类::[Search Engine]

机器人新闻的Beta版本:机器新闻中心,因为没有更多的时间开发,暂时收集大家意见和建议,等月底再继续开发。1.什么是分类?分类就是将一片文章/文本自动的识别出来,按照先验的类别进行匹配,确定。什么是聚类?聚类就是将一组的文章/文本/信息进行相识性的比较,将比较相识的文章/文本/信息归为同一组的技术。什么是模糊聚类?模糊聚类就是没有先验的聚类因子,完全按照算法来进行识别和类大小,类的多少,类的误差等

2005-03-29 22:34:00 2118 2

转载 再说机器新闻的分类和聚类::[Search Engine]

Google 新闻改版了,把我想实现的最关键的一部分实现了,没有什么比这个更让我感觉到失落了。我现在的新闻聚类还是石器时代。想法和技术在与同竞争对手的面前都不是关键,关键的东西是实践。关于新闻分类聚类零零碎碎的做了快3,4个月了,一直没有没有精力来全力以赴的去完成这个。Google的中文新闻刚出来的时候不但分类有误差,而且关于新闻内容的摘要常常也是文不对题,可是就是在这样的磕磕绊绊中google的

2005-03-29 22:24:00 2499

转载 Larbin 一种高效的搜索引擎爬虫工具::[Search Engine]

离开dallas已经整整十天了,基本上除了到处见见人之外基本上没有其它的时间来学习新知识,也没有空将要完成的工作收尾。Niu.la ,Booso,luliang.dhs.org 和 wespoke 相继宕机,看来年底各个地方的维护都不力。itseek的开发者多次问起 larbin 的事情,我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工

2005-03-29 22:18:00 1221

原创 关于盗连现在的音乐站(很多使用了音乐地址防盗连)的思路!

   本文章只是做一个讨论,不希望都去盗连别人的站!现在的很多音乐站根据不同的IP访问地址会动态的生成一些字符串来验证访问的合法性,如:http://www.xxxxx.com/1/sdffu156ds4f5d4fs.wma ;http://www.xxxxx.com/1/1.wma?nfsewio1564erf5ew4t5e4rt;红色为变化部分,不同的IP的或时间的访问都会变化,所以地址变得很

2005-03-24 20:09:00 1538 1

转载 Screen Scraping, ViewState, and Authentication using ASP.Net

Before web services came along, screen scraping was a popular technique for grabbing the output from another application by examining the text it displays on the screen. For web applications, this mea

2005-03-24 18:53:00 1339

原创 SQL查询的分页思路

 如果用一般的SELECT *  查询SQL数据库,然后用recordset进行分页的话,在返回结果很多的情况下将会是一个漫长的过程,而且很消耗内存.你可能会有感觉,用access也比SQL快.   其实我们可以只取出我们每页需要显示的记录数,这样的速度是惊人的,非常快.这里我们会用到聚集索引来快速确定我们需要取出的记录数的位置.如下面:  if p>1 then p为PAGE页数    if

2004-11-19 23:16:00 1123 1

原创 软件防盗连技术

判断访问来源页面,如果不是允许的来源页面则确定为外部连接(也就是盗连),输入错误信息. 如果是允许的页面,那么可以用ADODB.STREAM来输出要下载的文件.应该来说这是一个比较好的方法.

2004-11-19 22:57:00 1138 1

原创 终于解决post数据的一些问题

inet,xmlhtp post文件头的问题已解决.基本上好象往服务器post数据都差不多.现在剩处理mms.rtsp协议文件的下载问题.豪无头绪

2004-11-19 12:13:00 986

原创 全新的音乐防盗连技术

只指供学习讨论之用(主要用途:防止现在一般的所谓的小偷之类的批量抓取你的歌曲url) 使用以下播放器代码之类的皆可适用:播放器: 然后dis.asp中:www.cao5.com草屋音乐网www.cao5.com草屋音乐网 www.cao5.com草屋音乐网www.cao5.com草屋音乐网   www.cao5.com草屋音乐网www.cao5.com草屋音乐网www.ca

2004-11-19 11:57:00 1280 2

原创 一段天气预报的代码(转载)

天气预报table {  font-size: 12px; line-height: 14px}}-->function getweather(t){ window.open("http://appnews.qq.com/cgi-bin/news_qq_search?city="+t, name="_self");}      北京上海天津石家庄哈尔滨沈阳长春太原济南郑州天津呼和浩特西安

2004-09-18 01:36:00 1176

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除