【经验之谈】如何在搜索过程中快速解决问题,如何用好谷歌和百度等搜索引擎?

一、背景

1、百度搜索引擎对CSDN的文章非常照顾,一般是以这个网站的文章排到第一位,博客园和知乎至少要排到第二、第三位;

2、但是实际上CSDN有很多文章都是爬虫僵尸爬出来的,或者直接搬运博客园、知乎等网站,甚至还标原创的;

3、除此之外CSDN会把很多需要会员才能访问的文档资源也供给百度爬虫,导致虽然搜索结果中有我们也看不到里面的内容。

4、我之所以写这篇文章,就是做一个感慨——“在我主动跳过CSDN的垃圾文章而去看那些更好的文章时,我的学习效率大大提高了。”

二、如何在搜索过程中快速解决问题?

2.1 优先选择更优质的平台

1、在很多浏览器扩展中提供这样一个功能——直接在百度谷歌等搜索引擎中把CSDN给屏蔽了,我觉得这个方法好,但是还是有缺陷;因为CSDN中虽然三成的文章都是烂文,CSDN的界面再花里胡哨,广告再多......也还是有精品文章在里面。因此我不推荐直接屏蔽这种方法。

2、相比之下,不如我们人为过滤,看到百度搜索结果中如果前面有CSDN的文章,先别急着点进去;先看看有没有B站专栏、知乎专栏、博客园(精华)等口碑比较好的平台结果;如果有先点击非CSDN的。

2.2 同一种平台,优先选择有图的文章

如下图所示,在可释放差值的搜索结果中,优先选择第二个有图的文章,再看看文字描述,相关度也比较高,就点进去。 

2.3 文字描述也很重要

对文字描述的瞄一眼,也能大致判断这个文章的质量如何,作者是否严谨认真,以及这篇文章是否是爬虫爬出来的(CSDN中很多爬虫号是weixing__xxx开头的,他们的“原创”文都是爬虫爬出来的)。 

本人的经验是,标题的重要性和文字描述的重要性基本相同。有些博客标题起得烂,比如出现范围界定不明,用词不准确等错误。

2.4 利用图片搜索引擎,找到直观性更强的文章

假设我们想要知道HOG算法的知识,我们在谷歌图片搜索HOG,得到下面的结果

其实这些结果大多是从博客文章中爬取的。

如果文章的图用得好,作者在用心地作图,其实我相信这篇文章应该是更值得你看!

三、2个设想

3.1 扩展程序强制排序

既然浏览器扩展能够屏蔽某些搜索结果,那能不能强行对搜索结果进行排序呢?比如说我设置CSDN的优先级在博客园和知乎专栏的最后面,那么即使百度搜出来的原始顺序是CSDN>知乎专栏>博客园,经过扩展程序调整后,会将博客园的文章排在最前面,其次是知乎专栏,最后才是CSDN。

3.2 相似度信息

网上很多博客文章是互相转载的,某IT网站尤甚,在一个关键词的搜索结果中,该网站中竟然有好几篇内容完全相同的文章,搜索效率直接受到影响。因此建议将搜索结果相似度太高的网页进行特定的标注,比如网页A和网页B的正文相似度高于90%,建议只打开其一即可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值