Google 爬虫如何抓取 JavaScript 的?

谷歌爬虫不仅能处理JavaScript,还能读取和收录由JavaScript动态生成的内容,包括DOM中的SEO信号。它能执行JavaScript重定向、链接、动态插入的元数据和内容。动态插入的文本、图像、链接都被抓取和收录,DOM中的title、meta描述等标签与HTML源码中的效果相同。测试表明,Google爬虫对JavaScript的处理已经非常先进,几乎能像处理静态HTML一样处理动态内容。
摘要由CSDN通过智能技术生成

(点击上方公众号,可快速关注)

编译:伯乐在线/刘健超-J.c

如果好文章投稿,点击 → 了解详情


我们测试了谷歌爬虫是如何抓取 JavaScript,下面就是我们从中学习到的知识。


认为 Google 不能处理 JavaScript ?再想想吧。Audette Audette 分享了一系列测试结果,他和他同事测试了什么类型的 JavaScript 功能会被 Google 抓取和收录。



长话短说


1. 我们进行了一系列测试,已证实 Google 能以多种方式执行和收录 JavaScript。我们也确认 Google 能渲染整个页面并读取 DOM,由此能收录动态生成的内容。


2. DOM 中的 SEO 信号(页面标题、meta 描述、canonical 标签、meta robots 标签等)都被关注到。动态插入 DOM 的内容都也能被抓取和收录。此外,在某些案例中,DOM 甚至可能比 HTML 源码语句更优先。虽然这需要做更多的工作,但这是我们好几个测试中的一个。


引言:Google 执行 JavaScript & 读取 DOM


早在 2008 年, Google 就 成功抓取 JavaScript,但很可能局限于某种方式。


而在今天,可以明确的是,Google 不仅能制定出他们抓取和收录的 JavaScript 类型,而且在渲染整个 web 页面上取得了显著进步(特别在最近的 12 到 18 个月)。


在 Merkle,我们的 SEO 技术团队想更好地理解谷歌爬虫能抓取和收录什么类型的 JavaSscript 事件。经过研究,我们发现令人瞠目的结果,并已证实 Google 不仅能执行各种 JavaScript 事件,而且能收录动态生成的内容。怎么样做到的?Google 能读取 DOM。


DOM 是什么?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值