Spider抓取细节：内容处理的四个核心步骤！

最新推荐文章于 2024-04-21 10:05:07 发布

代陈军

最新推荐文章于 2024-04-21 10:05:07 发布

阅读量781

点赞数

文章标签：邦顺科技 SEO优化

本文链接：https://blog.csdn.net/bonsone/article/details/88792298

版权

内容处理即搜索引擎对Spider抓取回来的页面进行处理，处理步骤简单介绍如下。

步骤一：判断该页面的类型

首先要判断该页面的类型是普通网页，还是PDF、Word、 Excel 等特殊文件文档。如果是普通网页，还要判断该网页的类型是普通文本内容、视频内容，还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断，然后有针对性地进行内容处理。

步骤二：提取网页的文本信息

当下搜索引擎虽然在努力读取JavaScript、 Flash、图片和视频，但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、 Description 等标签中的内容，虽然一直有信息说 Keywords标签已经被主流大型搜索引擎抛弃了，但是经过多人实际测试，至少百度多多少少还是会参考Keywords标签的。

步骤三：去除页面噪声

如果该网页是普通网页，则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉，只提取出该网页的主体内容。其实目前在这一步中，百度并不会把主体内容之外的东西全部抛弃，相关推荐的内容在一定程度上也会被算作本页的内容，或者是对本页主体内容的补充，也会在搜索排名中有直观的体现，甚至与页面不相干的链接文本也会被保留索引。

步骤四：去除内容中的停止词

接下来应该是对剩余文本内容的分词处理，然后搜索引擎会剔除掉如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的，对于普通文章来说，去除这些停止词会有利于搜索引擎对内容进行分词和理解，并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这些词也是有丰富的搜索结果的，如图2-9所示:当搜索包含这些词的关键词时，也会有比较丰富的搜索结果，不过会弱化这些停止词对搜索结果的影响，如图2-10所示。所以搜索引擎在对普通文章的处理中应该会有此步骤，但并不是机械严格去除的，也要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别，同一个词在不同位置词性可能不同)。此处对SEO人员的工作并没有太多影响，所以不必深究。

经过这些处理后，Spider 抓取回来的网页内容就被“洗”干净了，再经过分词处理及去重处理后，搜索引擎就会对已经被初步处理过且有索引价值的网页内容进行正向索引和倒排索引处理了。

更多精彩内容，请点击“原文查看”