网页中使用Goolge搜索引擎之全接触 (1)

原创 2004年07月02日 21:06:00
网页中使用Goolge搜索引擎之全接触
XML, Web Services, JavaScript

在自己的网页上放一个搜索引擎将是非常酷的!
当然要自己实现真正的Internet网页Search Engine对于我们大多数人来说是Mission Impossible的!

狗狗是世界上最好的搜索引擎,至少我这么认为. 如果能在自己的网页上"借用"Google的搜索引擎, 也是件不错的事, 不过一定要"借"得足够巧妙!

本系列打算通过从最简单的URL拼接到XmlHttp,到Soap的使用,通过用纯Javascript实现在网页上使用Google搜索,目的在于通过实例来介绍一些Web方面入门的知识。(我想,有一年WEB编程经历的XDJM可就此打住咯。)

开始正题。
如果仔细观察Google的行为, 会发现在提交搜索的时候, Goolge实际上把参数都放在URL里面了.
比方说, 在所有网站里搜索"Troy" (期待已久的大片,呵呵), 那么只要把以下的URL粘贴到浏览器就可以了
http://www.google.com/search?hl=zh-CN&ie=UTF-8&q=Troy&lr=lang_zh-CN

看起来,只要把上面的URL里面的q=Troy换成其他关键词,就可以实现对Google的"盗链"了

且慢, 如何要搜索的关键词是中文, 那可得另外编码了. 网上有些现成的Javascript的编码函数,不过本着能不写程序就不写程序的原则, 来看看有什么简易的方法.

首先,想到用Form的Get方法来让IE来替我们干活:

http://www.google.com/search">




咦? 好像还是乱码. 原来我的网页默认是GB2312编码的,而狗狗默认了UTF-8. 那要么我们随狗狗,要么狗狗随我们

如果在网页的标签的开始处加入,那么我们的网页也是UTF-8编码了,再试一下, OK! 成功了

呜,要是我不愿意改变我网页的编码呢, 那么我们得通知Google: 我提交得内容是Gb2312编码. 可以在form里面加入,效果是一样的. ie这个参数就是告诉Google,我的浏览器的编码. 更多参数如下:

参数
描述
q
要查的关键词
start
返回结果从那条记录开始,用于分页,默认为0
lr
在指定的语言中查找,可以用"|" 表示或,比方说 lr=lang_zh-CN|lang_zh-TW|lang_en 表示同时在简体中文,繁体中文,英文网页中搜索 (lr表示language restrict)
ie
上面说过了.提交的参数的编码(ie表示input encoding)
oe
和IE相反,是输出结果的编码(output encoding)

可以根据需要选用

唔,至此一个功能最起码的借用Google搜索引擎的网页已经完成了. 事实上, 相当一部分网站也就如此.

不过我相信相当一部分人是不满意, 甚至不屑一顾的. Google的图标,样式都出现在你的网页中,让人一眼就看穿了

(二)

如果能找到某种可以模拟IE表单的提交,并且能在IE之前截获返回的HTML代码,然后做一些简单的加工后再输出到页面,那么就能改善前面的方法了.

微软有个叫XmlHttp的客户端对象,用来和Http服务器通信, 可以模拟提交表单, 接受Http响应. 看起来, 如果用XmlHttp似乎可行, 不过得开始写点Javascript了.

XmlHttp是个很简单得COM 组件, 提供了Open, Send, ResponseText等方法/属性.
那么我们就试着用它来模拟提交一个查询得表单

搜索引擎使用方法

google 在制定网站搜索  “关键字 site:网址 ”
  • techtitan
  • techtitan
  • 2014年03月15日 17:33
  • 1335

转:搜索引擎如何抓取互联网页面

先说说搜索引擎的原理吧。搜索引擎是把互联网上的网页内容存在自己的服务器上,当用户搜索某个词的时候,搜索引擎就会在自己的服务器上找相关的内容,这样就是说,只有保存在搜索引擎服务器上的网页才会被搜索到。哪...
  • u012110719
  • u012110719
  • 2015年07月19日 21:14
  • 1350

Ajax全接触(一)基础理论

什么是同步? 客户端要发起请求,服务器端要去处理,而且去响应,这时候客户端完全是等待,等待服务器端的处理和响应,当服务器端处理响应后客户端会重新载入页面。这时候如果你有错误,那么只能再次发起请求,再次...
  • u013861109
  • u013861109
  • 2016年12月20日 15:29
  • 160

CSS+DIV网页样式与布局

一、什么是CSS?         CSS(Cascading Style Sheets),中文译为层叠样式表,它是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。      ...
  • u013086062
  • u013086062
  • 2015年05月31日 21:20
  • 1451

搜索引擎是如何抓取网站内容的

编者按:站长朋友们,今后定期都将在这里跟大家分享一些有关搜索引擎工作原理及网站运营相关的内容,今天先简单介绍一下关于搜索引擎抓取系统中有关抓取系统基本框架、抓取中涉及的网络协议、抓取的基本过程三部分。...
  • sageparadise
  • sageparadise
  • 2013年12月12日 11:18
  • 1618

java实现的简单网页爬虫:Servlet 搜索引擎核心爬虫程序(三)

/**  *  * @author Administrator  *  * JavaSpider 1.6 版本  *  * 1,对所有的目标网址进行抽取,得到目标java文件,也就是...
  • reggergdsg
  • reggergdsg
  • 2016年01月17日 01:04
  • 1899

搜索引擎如何实现对页面的索引与排名

关于搜索引擎对页面索引和排名之间的关系。我们应该知道我们在做网站的时候,很多时候需要分一些板块,这点是根据搜索引擎的搜索原理来进行的。   关于主题索引词的板块集合的概念?    搜索针...
  • jingdianyulu
  • jingdianyulu
  • 2014年08月15日 01:08
  • 412

Chrome 浏览器修改默认搜索引擎跟网页右键搜索 启动特定页

一直不知道自己没翻墙为啥chrome总能顺利访问google; 知道翻到下面这个页面才想起来,似乎好多年前做过类似的操作?我已经记不起来了以下为无图转载老D 2周前 (09-01) hosts 156...
  • stereohomology
  • stereohomology
  • 2016年09月18日 14:37
  • 1275

搜索引擎的数学原理

引言网络资源丰富异常,没有你想不到的,只有你找不到的。查找往往要借助于搜索引擎。建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速的索引;根据相关性对网页进行公平准确的排序。本篇博...
  • chunxiao2008
  • chunxiao2008
  • 2016年01月24日 18:40
  • 712

黑客规避搜索引擎 劫持网站流量

最令站长头疼的事莫过于自己的网站被黑。如果没有合适的安全措施,即便站长再怎么用心,也会失去网站的控制权。黑客入侵网站之后,可以在上面搭载钓鱼页面,传播恶意软件,盗取敏感信息等。在这篇文章中,我们将会看...
  • selifecn
  • selifecn
  • 2017年03月20日 00:23
  • 381
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:网页中使用Goolge搜索引擎之全接触 (1)
举报原因:
原因补充:

(最多只允许输入30个字)