PDF在google搜索结果中会被PDF标签标记,如下图所示:
那么Google搜索引擎如何处理PDF文件呢?
首先,PDF文件会被转换并索引为HTML(超文本标记语言)。
对于包含文本图像的PDF,Google使用光学字符识别(OCR)技术将文本图像转换为文本。
同时,PDF中的图像也会被收录在图像搜索结果中。
如果你同时拥有一个独立网页,且内面的内容跟PDF内容重复的话,Google会优先选择索引网页而不是PDF文档。
如果你的页面内容和PDF具有相同的内容,则Google会将页面作为重复群集(duplicate cluster)的主要版本。这意味着PDF中的内容都会被合并到页面中,并且只在搜索结果中显示页面而不显示PDF。
(注意区分上面的,重复内容和具有相同内容的情况)
但是你要知道PDF是不利于的SEO的,我们应该尽可能将内容展示在页面中!
这个很好理解,相比页面而言,PDF存在一些缺点:
1、PDF本质上是静态文件,我们不会经常更新,因此爬虫抓取的频率较低;
2、PDF文件没有移动端友好性,因为其版式固定,导致在移动端的显示效果不佳;
3、无法跟踪数据,常见的追踪器都会在网页上运行JavaScript, 但却无法处理PDF文档。
4、PDF中的链接缺乏SEO属性,例如:nofollow、UGC和Sponsored。
以上!