html压缩后搜索引擎能识别码,一种基于HTML标签识别异步加载内容的搜索引擎优化方法与流程...

柔杀言黎

于 2021-06-03 23:38:05 发布

阅读量106

点赞数

文章标签： html压缩后搜索引擎能识别码

技术特征：

1.一种基于HTML标签识别异步加载内容的搜索引擎优化方法，其特征是，步骤如下：

步骤1：在网页上定义一种可识别的HTML标签，当网页爬虫抓取页面时，爬虫识别指定HTML标签；搜索器利用网络爬虫抓取HTML文本内容；

步骤2：爬虫利用正则表达式匹配指定标签，如果没有匹配到该标签则进行步骤6，如果匹配到进行步骤3；

步骤3：遍历标签并识别标签中的链接属性，将属性中的url放入内存中；

步骤4：读取内容中存储的url，利用多线程发送请求；

步骤5：将请求返回的文本信息拼接到HTML文档对应的位置；

步骤6：对HTML文档内容进行编码压缩存入网页库。

2.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法，其特征是，HTML标签数量应当限定在5个以内。

3.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法，其特征是，所述的读取内存中存储的url的实现方法，如果某个请求的返回码等于200、301或302则将返回内容放入缓存，下次再匹配到同样的url时，直接从缓存中读取数据，而不再发送新的请求；如果该请求的返回码大于400，则将该请求放入黑名单，之后再识别到该url时不再发送请求。爬虫任务结束后，释放黑名单中的url以及缓存中的存储内容。

4.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法，其特征是，如果页面中某部分内容的加载比较耗时，但又需要考虑SEO，那么将这部分业务单独抽取出一个接口，将接口的url置于标签<async>的href属性中，在保证SEO的同时，提升页面加载速度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
html压缩后搜索引擎能识别码,一种基于HTML标签识别异步加载内容的搜索引擎优化方法与流程...

技术特征：1.一种基于HTML标签识别异步加载内容的搜索引擎优化方法，其特征是，步骤如下：步骤1：在网页上定义一种可识别的HTML标签，当网页爬虫抓取页面时，爬虫识别指定HTML标签；搜索器利用网络爬虫抓取HTML文本内容；步骤2：爬虫利用正则表达式匹配指定标签，如果没有匹配到该标签则进行步骤6，如果匹配到进行步骤3；步骤3：遍历标签并识别标签中的链接属性，将属性中的url放入内存中；步骤4：读取...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。