技术特征:
1.一种基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,步骤如下:
步骤1:在网页上定义一种可识别的HTML标签,当网页爬虫抓取页面时,爬虫识别指定HTML标签;搜索器利用网络爬虫抓取HTML文本内容;
步骤2:爬虫利用正则表达式匹配指定标签,如果没有匹配到该标签则进行步骤6,如果匹配到进行步骤3;
步骤3:遍历标签并识别标签中的链接属性,将属性中的url放入内存中;
步骤4:读取内容中存储的url,利用多线程发送请求;
步骤5:将请求返回的文本信息拼接到HTML文档对应的位置;
步骤6:对HTML文档内容进行编码压缩存入网页库。
2.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,HTML标签数量应当限定在5个以内。
3.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,所述的读取内存中存储的url的实现方法,如果某个请求的返回码等于200、301或302则将返回内容放入缓存,下次再匹配到同样的url时,直接从缓存中读取数据,而不再发送新的请求;如果该请求的返回码大于400,则将该请求放入黑名单,之后再识别到该url时不再发送请求。爬虫任务结束后,释放黑名单中的url以及缓存中的存储内容。
4.根据权利要求1的所述的基于HTML标签识别异步加载内容的搜索引擎优化方法,其特征是,如果页面中某部分内容的加载比较耗时,但又需要考虑SEO,那么将这部分业务单独抽取出一个接口,将接口的url置于标签<async>的href属性中,在保证SEO的同时,提升页面加载速度。