websocketpp区分文件和文本_Google搜索引擎如何处理PDF文件?

63d97b0510e5a74bb413ff47c7329aef.png

PDF在google搜索结果中会被PDF标签标记,如下图所示:

22f0d8a2b5f6922a342ac118033b6a12.png

那么Google搜索引擎如何处理PDF文件呢?

首先,PDF文件会被转换并索引为HTML(超文本标记语言)。

对于包含文本图像的PDF,Google使用光学字符识别(OCR)技术将文本图像转换为文本。

同时,PDF中的图像也会被收录在图像搜索结果中。

如果你同时拥有一个独立网页,且内面的内容跟PDF内容重复的话,Google会优先选择索引网页而不是PDF文档。

如果你的页面内容和PDF具有相同的内容,则Google会将页面作为重复群集(duplicate cluster)的主要版本。这意味着PDF中的内容都会被合并到页面中,并且只在搜索结果中显示页面而不显示PDF。

(注意区分上面的,重复内容具有相同内容的情况)

但是你要知道PDF是不利于的SEO的,我们应该尽可能将内容展示在页面中!

这个很好理解,相比页面而言,PDF存在一些缺点:

1、PDF本质上是静态文件,我们不会经常更新,因此爬虫抓取的频率较低;

2、PDF文件没有移动端友好性,因为其版式固定,导致在移动端的显示效果不佳;

3、无法跟踪数据,常见的追踪器都会在网页上运行JavaScript, 但却无法处理PDF文档。

4、PDF中的链接缺乏SEO属性,例如:nofollow、UGC和Sponsored。

以上!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值