html压缩后搜索引擎能识别码,一种基于HTML标签识别异步加载内容的搜索引擎优化方法与流程...

技术特征:

1.一种基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,步骤如下:

步骤1:在网页上定义一种可识别的HTML标签,当网页爬虫抓取页面时,爬虫识别指定HTML标签;搜索器利用网络爬虫抓取HTML文本内容;

步骤2:爬虫利用正则表达式匹配指定标签,如果没有匹配到该标签则进行步骤6,如果匹配到进行步骤3;

步骤3:遍历标签并识别标签中的链接属性,将属性中的url放入内存中;

步骤4:读取内容中存储的url,利用多线程发送请求;

步骤5:将请求返回的文本信息拼接到HTML文档对应的位置;

步骤6:对HTML文档内容进行编码压缩存入网页库。

2.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,HTML标签数量应当限定在5个以内。

3.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,所述的读取内存中存储的url的实现方法,如果某个请求的返回码等于200、301或302则将返回内容放入缓存,下次再匹配到同样的url时,直接从缓存中读取数据,而不再发送新的请求;如果该请求的返回码大于400,则将该请求放入黑名单,之后再识别到该url时不再发送请求。爬虫任务结束后,释放黑名单中的url以及缓存中的存储内容。

4.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,如果页面中某部分内容的加载比较耗时,但又需要考虑SEO,那么将这部分业务单独抽取出一个接口,将接口的url置于标签<async>的href属性中,在保证SEO的同时,提升页面加载速度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值