搜索引擎
文章平均质量分 63
大伟先生
服务于医疗行业、教育行业营销与软件研发。
展开
-
中文分词算法
这里主要介绍了我自己的中文分词算法,我觉得它比现在开源代码比较多的中文匹配法要好多了。这里的内容没有任何背景知识啥的,毕竟论文里的背景知道我也是从网上粘贴的,呵呵!因此这篇文章的内容可能适合做搜索引擎的人。如果要了解中文分词算法在搜索引擎中的重要性,或者最大匹配法的思想与过程,请去网上搜吧,资料还是蛮多的。原创 2008-04-12 00:41:00 · 1066 阅读 · 0 评论 -
seo?什么是SEO?
SEO?到底什么是SEO?好吧!让我来为你解读?每日一帖来告诉你什么是SEO?企业或是互联网站长为什么需要SEO?那么SEO会不会像一部公车一样会满载?来我的SEO世界?我每天都会告诉你我所知道的http://www.bjkfy.cn/home/space.php?uid=5&do=blog&classid=4&view=me(我的开发园空间SEO专题)当然除原创 2009-11-28 15:26:00 · 1044 阅读 · 0 评论 -
各种语言版本的301转向代码的写法
一: IIS中实现301转向:1.打开internet信息服务管理器,在欲重定向的网页或目录上按右键2.选中“重定向到URL”3.在对话框中输入目标页面的地址4.选中“资源的永久重定向”5.点击“应用”即可生效二:ASP下的301转向代码:ASP下的301转向代码:Response.Status = "301 Moved Permanently"Resp原创 2009-09-17 14:54:00 · 1034 阅读 · 0 评论 -
Dianzhong SiteMap v1.0.0.090911_03_release
内部站点地图生成软件根据数据库直接生成的站点地图适合对象1.新云所有版本平台2.智能1.1CMS平台3.智能2.0CMS平台4.且选择生成静态页面的版本原创 2009-09-15 15:31:00 · 661 阅读 · 0 评论 -
筹建资源站群的(主要是针对搜索引擎而言)
资源站,其实说的难听一点呢?就是垃圾站,是服务于其他网站所建立起来的站群,主要是让搜索引擎判定这些资源站一起数据优势!如PR、ALEXA、百度关键字排名、谷歌关键字排名等一系统列的有利数据。总结上来说应该有以下几点1.网站建设(主要是CMS的采用)2.统一的信息发布3.关键字处理与分布4.流量分析与跟踪5.UE反馈并对其重新调整 其他的待续原创 2009-05-03 13:18:00 · 678 阅读 · 0 评论 -
IIS日志分析及IIS日志分析软件下载
IIS日志分析是我们asp.net程序员必须了解知识,因为我们开发的网站都是基于IIS服务器。当网站访问缓慢时,除了检查程序代码和优化程序代码外,IIS日志就是我们寻找网站缓慢另一个途径!IIS日志文件存放位置,一般默认位置是:(C:/WINDOWS/system32/LogFiles);在IIS信息服务窗口中,点击要设置的网站的属性,在“网页”选项卡上可以看到“启动日志记录 ”项,可以设置日原创 2008-12-19 09:28:00 · 1283 阅读 · 0 评论 -
用C#实现蜘蛛/爬虫程序的多线程控制
在《爬虫/蜘蛛程序的制作(C#语言)》一文中,已经介绍了爬虫程序实现的基本方法,可以说,已经实现了爬虫的功能。只是它存在一个效率问题,下载速度可能很慢。这是两方面的原因造成的:1.分析和下载不能同步进行。在《爬虫/蜘蛛程序的制作(C#语言)》中已经介绍了爬虫程序的两个步骤:分析和下载。在单线程的程序中,两者是无法同时进行的。也就是说,分析时会造成网络空闲,分析的时间越长,下载的效率越低。反之也原创 2008-12-16 17:59:00 · 1205 阅读 · 0 评论 -
ASP.Net RssToolkit Version 2.0
I have been part of the team working on the latest version ASPNET RssToolkit, originally created by Dmitry Robsman. We enhanced this awesome Toolkit and have just released version 2.0 of the Toolki原创 2009-02-09 18:23:00 · 1630 阅读 · 0 评论 -
抓取Web网页数据分析(c#)
通过程序自动的读取其它网站网页显示的信息,类似于爬虫程序。比方说我们有一个系统,要提取BaiDu网站上歌曲搜索排名。分析系统在根据得到的数据进行数据分析。为业务提供参考数据。 为了完成以上的需求,我们就需要模拟浏览器浏览网页,得到页面的数据在进行分析,最后把分析的结构,即整理好的数据写入数据库。那么我们的思路就是: 1、发送HttpRequest请求。 2、接收HttpResponse原创 2008-11-26 09:44:00 · 1452 阅读 · 1 评论 -
href获取
//得到下面字符串里“商品列表”的a的hrefstring pattern = @"商品列表";Regex r = new Regex(pattern, RegexOptions.IgnoreCase);MatchCollection mc = r.Matches(data);foreach (Match m in mc){ string ss = m.Groups[1].Value;}//原创 2008-10-04 06:13:00 · 776 阅读 · 0 评论 -
Spider与crawler不同点
写这篇的动力源于上一篇中反复出现的robots,它让我想起了spider(蜘蛛)与crawler(爬虫)。此二者一样?不一样? 以前就看过一篇文章,说此二者不一样,或是严格说不一样。刚才又在网上搜了搜,大部分意见说此二者一样。这个大部分的意见,我就不在此熬述了,网上找吧,一大堆呢。我就这篇说说“此二者不一样”。对或不对,全当个参考,百家争鸣、百花齐放。 在 WebmasterWorl原创 2008-09-08 09:56:00 · 2912 阅读 · 0 评论 -
about Lucene
Lucene是开放源代码的全文搜索引擎工具包,凭借着其强劲的搜索功能和简单易用的实现,在国内已经很普及,甚至一度出现了言搜索必称Lucene的盛景。上个月Lucene的开发团队发布了 Java Lucene 2.3.1 ,相信很多朋友们都用上了。在国内对Lucene的介绍可以分为3块儿: 第一类是:以车东 的Lucene:基于Java的全文检索引擎简介 为代表的基础入门介绍; 第二类是Lucene原创 2008-09-08 09:54:00 · 697 阅读 · 0 评论 -
几个重要搜索引擎的网站提交地址
以下是登录几个重要搜索引擎的网站提交地址: 百度:http://www.baidu.com/search/url_submit.html Google:http://www.google.com/intl/zh-CN/add_url.html 中国雅虎:http://search.help.cn.yahoo.com/h4_4.html 微软Live & Msn:http://sea原创 2008-08-27 01:13:00 · 808 阅读 · 0 评论 -
DIV+CSS布局的网页对网站SEO的影响
SEO主要就是通过对网站的结构,标签,排版等各方面的优化,使Google等搜索引擎更容易搜索网站的内容,并且让网站的各个网页在GOOGLE等搜索引擎中获得较高的评分,从而获得较好的排名。DIV+CSS网页布局对SEO有哪些影响呢? 代码精简 使用DIV+CSS布局,页面代码精简,这一点相信对XHTML有所了解的都知道。代码精简所带来的直接好处有两点:一是提高spider爬行效率,能在最短的时间原创 2008-08-19 14:11:00 · 652 阅读 · 0 评论 -
数学之美 系列二 -- 谈谈中文分词
谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词:中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。最容易想到的,也是最简单的分词办法就是查字典。这原创 2008-04-12 00:47:00 · 574 阅读 · 0 评论 -
数学之美 系列二十 -自然语言处理的教父 马库斯
我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的论文并不多,但是从很多角度上讲,他可以说是自然语言处理领域的教父。马库斯教授长期当任宾夕法尼亚大学计算机系主任,直原创 2008-04-12 00:45:00 · 640 阅读 · 0 评论 -
编写简单的中文分词程序
几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.一、词库词库大概有5万多词语(Google能搜到,类似的词库都能用),我摘要如下:地区 82重要 81新华社 80技术 80会议 80自己 79干部 78职工 78群众 77没有原创 2008-04-12 00:34:00 · 947 阅读 · 0 评论 -
六度分隔与最短路径
【最短路径】圆明园的北部有一个迷宫,据说古时候每次有庆典在圆明园的时候,皇帝会派一些宫女走迷宫,看谁最先走到迷宫内的亭子,会有不错的奖赏。迷宫问题对数学家们来讲虽然是小儿科但在计算机课程上却非常重要,因为不同的求解会涉及到递归,广度优先和深度优先等算法。迷宫毕竟是一个放置在2维空间的有限联系的网络,也就是说,迷宫里的每一个点,最多只和周围的4个点(上下左右)发生关系,而且这原创 2008-04-11 17:44:00 · 572 阅读 · 0 评论 -
网络编辑如何为文章选择合适的关键字?
网络编辑在找关键字之前应该先考虑以下三个问题: 一、为什么要找关键字?找关键字的目的是什么? 二、如何才算是合适的关键字? 三、哪些会用到关键字?谁在使用关键字?关键字的价值何在? 如果你已经认真考虑过以上的那三个问题,那么现在咱们可以先来了解这三个问题?内容页面会用户到关键字。而谁会用呢?一般关键字仅仅提供给已经在访问网站并访问到内容页的用户。那么这块原创 2011-06-15 19:36:00 · 721 阅读 · 0 评论