如何使用开源搜索引擎制作属于自己的个人网络?

Person using a laptop

作者:Seth Kenlon

译者:Elle

原文

正文:

很久以前,互联网很小,只有几个人可以将它们编入索引中,这些人收集了所有网站的名称和地址,并在页面中或印刷书籍中按主题列出每个网站。随着万维网的发展,“网络环”公约也发展起来了,在这个公约中,具有相似主题、话题或情感的站点会联合在一起,以至于形成了通往每个成员的循环路径。访问者可以到达环中的任何站点,然后点击一个按钮继续到环中的下一个或之前的站点,这样就可以发现与他们兴趣相关的新站点。

后来有一段时间,互联网似乎超出了自身限定的发展。每个人都可以上网,因此有很多冗余和垃圾邮件,从而导致我们没有办法找到任何东西。雅虎(Yahoo)、美国在线(AOL)、CompuServe和类似的服务都有独特的方法,但直到谷歌出现,现代模式才站稳脚跟。根据谷歌的描述,互联网应该通过搜索引擎来进行索引、排序和排名。

为什么要选择开源的替代方案?

像谷歌和DuckDuckGo这样的搜索引擎显然是有效的。你可能是通过搜索引擎进入到这个网站的。虽然由于主机选择不遵循搜索引擎优化的最佳实践而导致内容失当的问题存在争议,但管理互联网上丰富的文化、知识和轻率行为的现代解决方案就是无情的索引。

但也许你不喜欢使用谷歌或DuckDuckGo是出于对隐私问题的考虑,或者因为你想为让互联网变得更加独立而做出贡献。如果这吸引了你,那么就考虑加入YaCy吧,一个对等的互联网索引和搜索引擎。

安装YaCy

想要安装并尝试运行YaCy,请首先确保你的电脑已安装Java。 如果您使用的是Linux,则可以按照《 如何在Linux上安装Java》一文中的说明方法来进行操作。 如果您使用的是Windows或MacOS,请从AdoptOpenJDK.net中获取安装程序。

安装Java后, 就可以下载适合你电脑的安装程序 。

如果你使用的是Linux,就需要解压tarball然后将它移动到/opt目录中:

$ sudo tar --extract --file  yacy_*z --directory /opt

接着根据你下载的安装程序的说明方法来启动YaCy。

在Linux上,后台就可以运行YaCy:

$ /opt/yacy/startYACY.sh &

然后通过web浏览器导航到localhost:8090并进行搜索。

YaCy start page

将YaCy添加到你的网址栏中

如果你使用的是Firefox Web浏览器,则只需单击几下,就可以在Awesome Bar(即Mozilla的URL字段名称))中将YaCy设置为默认搜索引擎。

首先,让专用的搜索栏在Firefox工具栏中可见,如果还没有的话(你不必保持搜索栏可见;只需要用足够长的时间激活它就能添加到自定义搜索引擎中)。 搜索栏位于Firefox右上角“ 自定义”菜单中的“侧栏”菜单中。 搜索栏在Firefox工具栏中显示之后,导航至localhost:8090 ,然后单击刚刚添加的Firefox搜索栏中的放大镜图标。 单击选项将YaCy添加到你的Firefox搜索引擎中。

Adding YaCy to Firefox

完成后,你可以在Firefox首选项中将其标记为默认值,或者在Firefox搜索栏中执行的搜索结果中选择性地使用它。 如果你将其设置为默认搜索引擎,则可能不需要专门的搜索栏,因为Awesome Bar也使用默认引擎,所以你可以将它从工具栏中删除掉。

P2P搜索引擎是如何运行的

YaCy是一个开源的分布式搜索引擎。 它是用Java编写的,因此你可以在任何平台上使用,而且还可以执行Web爬虫、索引和搜索功能。 这是一个对等(P2P)网络,所以每个运行YaCy的用户都在努力跟踪互联网每天的变化。 当然,没有一个用户是能拥有整个互联网的完整索引的,因为这将需要一个数据中心来容纳它们,但是该索引在所有YaCy用户中都是分布式且冗余的。除了你共享的数据是一个单词和URL关联矩阵, 其余的和BitTorrent很像(因为它使用分布式哈希表或DHT来引用索引条目)。 通过混合哈希表返回的结果,没有人知道谁搜索了什么词,所以所有的搜索在功能上都是匿名的。这是一个有效的系统,可以进行无偏见、无广告、无追踪、匿名的搜索,你只要使用它就可以加入其中。

搜索引擎与算法

索引互联网的行为是指将一个网页分离成单数的词,然后将网页的URL与每个词关联起来。在搜索引擎中搜索一个或多个单词将获取与查询有关的所有URL。这是YaCy客户端在运行时所做的事。

客户端要做的另一件事是给你的浏览器提供一个搜索界面。 当你想要搜索时,你可以将web浏览器指向localhost:8090来搜索YaCy,而不是导航到谷歌。 你甚至可以将它添加到浏览器的搜索栏中(这取决于你所在的浏览器的可扩展性),这样你就可以从URL栏中进行搜索。

YaCy的防火墙设置

当你第一次开始使用YaCy时,它可能是以“初级”模式进行运行。 这意味着你的客户端爬取的站点仅对你自己可用,因为其他YaCy客户端是无法访问你的索引条目的。 要想加入P2P体验,你必须在路由器的防火墙中打开端口8090,如果你此时正在运行该防火墙的话,则必须在软件防火墙中打开端口。 这称为“高级”模式。

如果你使用的是Linux,则可以在通过防火墙增强Linux中找到有关计算机防火墙的更多信息。 在其他平台上,请参考操作系统的文档。

防火墙几乎总是活跃在你的互联网服务提供商(ISP)提供的路由器上,它们的种类太多,在这里是无法进行准确记录的。 大多数路由器都提供了在防火墙中“被攻击”的选项,因为许多流行的网络游戏都需要双向流量。

如果你知道如何登录路由器(通常为192.168.0.1或10.1.0.1,但可能会因制造商的设置而变化),就直接登录并查找配置面板来控制防火墙端口转发应用程序 。

找到路由器防火墙的首选项后,将端口8090添加到白名单。 例如:

Adding YaCy to an ISP router

如果你的路由器正在进行端口转发,那么你必须要使用相同的端口将传入的流量转发到你的计算机的IP地址上。例如:

Adding YaCy to an ISP router

如果你因为某种原因不能调整你的防火墙设置,也没关系。YaCy将继续以初级模式来作为P2P搜索网络的客户端进行操作。

自己的互联网

使用YaCy搜索引擎,你就可以做更多的事情,而不仅仅是被动地搜索。你可以对代表性较弱的网站进行强制抓取,你也可以请求网络抓取站点,当然你也可以选择使用YaCy进行本地搜索等等。这样你就可以更好地控制自己的互联网。高级用户越多,被索引的网站就越多。索引的站点越多,所有用户的体验就越好。

CSDN译言堂仅用于学习、研究和交流。版权归文章作者、译者和CSDN译言堂所有。如需转载,请于转载前联系该篇的译者获取授权,并在文章开头明显位置注明本文出处、译者和CSDN译言堂的完整链接,违者必究。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值