数据获取——网络爬虫4

最新推荐文章于 2024-07-19 15:16:23 发布

五吾唔

最新推荐文章于 2024-07-19 15:16:23 发布

阅读量102

点赞数

文章标签：学习其他数据挖掘爬虫大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73540824/article/details/131392108

版权

6.关键技术分析

1)抓取目标的定义与描述

(1)针对有目标网页特征的网页级信息。对应网页库级的垂直搜索.抓取目标网页,后续还要从中抽取出需要的结构化信息。这种技术在稳定性和数量上占优,但成本高、灵活性差。

(2)针对目标网页上的结构化数据。对应模板级垂直搜索.直接解析页面.提取并加I工出结构化数据信息。这种技术实施快，成本低，灵活性强.但后期维护成本高。

2)网页的分析与信息的提取

(1)基于网络拓扑关系的分析算法。根据页面间超链接引用关系对与已知网页有直接或间接关系的对象做出评价的算法，如网页粒度PageRank算法、网站粒度SiteRank算法。

(2)基于网页内容的分析算法。从最初的文本检索方法向涉及网页数据抽取、机器学习、数据挖掘、自然语言处理等多领域综合的方向发展。

(3)基于用户访问行为的分析算法。有代表性的是基于领域概念的分析算法，涉及本体论。

7.发展趋势

随着网络的不断发展，大量有价值的网页会隐藏在深层网络中，现在的网络爬虫对深层的网页中动态网页和数据库基本上是束手无策的。在现在搜索模式下如何跟上互联网这种发展趋势变得异常重要，深层的网络爬虫研究变得更加迫切。

AJAX技术已在网页中经常被应用到。使用AJAX的最大优点是网站维护数据可以不必更新整个页面,这样，Web应用程序可以更加快速地回应用户动作，并避免了在网络上发送那些没有改变的信息。这样的无闪局部刷新可以加快网页的刷新速度。

随着网络的不断发展.各种多媒体信息都出现在网页上，比如海量的图片、动画游戏、视频等.这些都需要搜索引擎有应对之策。伴随着搜索引擎的发展.各种基于网络的多媒体爬虫技术研究将会成为爬虫研究的新方向。随着对等网络P2P技术的发展，网络不是将所有的压力都分布在服务器端，而是将压力分担到每台用户的计算机上，这样每台客户端的计算机将作为主机完成上传和下载工作。网络成员可在网络数据库里自由搜索、更新、回答和传送数据。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
数据获取——网络爬虫4

(1)针对有目标网页特征的网页级信息。对应网页库级的垂直搜索.抓取目标网页,后续还要从中抽取出需要的结构化信息。这种技术在稳定性和数量上占优,但成本高、灵活性差。(2)针对目标网页上的结构化数据。对应模板级垂直搜索.直接解析页面.提取并加I工出结构化数据信息。这种技术实施快，成本低，灵活性强.但后期维护成本高。
复制链接

扫一扫

五吾唔 CSDN认证博客专家 CSDN认证企业博客

码龄2年

23: 原创

133万+: 周排名

226万+: 总排名

3万+: 访问

: 等级

243: 积分

5: 粉丝

10: 获赞

5: 评论

86: 收藏

私信

关注

热门文章

最新评论

静态随机存取存储器SRAM，基本的SRAM逻辑结构、读/写时序
m0_61512285: 求书名
数据获取——网络爬虫3
CSDN-Ada助手: 恭喜您撰写了第19篇博客！标题中的“数据获取——网络爬虫3”让我非常期待阅读您的内容。您在网络爬虫方面的经验和见解一定很丰富。不过，我也希望您能够在博客中谦虚地提及自己的知识限制，以便让读者更好地理解和跟随您的思路。期待您继续创作，也希望在下一篇博客中，您能够分享一些实践中遇到的挑战，并给出解决方法或者对此的思考。加油！
数据获取——网络爬虫4
CSDN-Ada助手: 恭喜你撰写了第20篇博客！标题“数据获取——网络爬虫4”听起来非常有趣。你的持续创作真是令人钦佩！在这个博客中，你一定分享了关于网络爬虫的一些有价值的知识。接下来，我期待你能探索更深入的主题，或者分享一些实际案例，这样读者们就能更好地理解如何应用网络爬虫来获取数据。谦虚地说，我相信你的下一篇博客也会像前20篇一样引人入胜！加油！
静态随机存取存储器SRAM，基本的SRAM逻辑结构、读/写时序
清平乐-夏: 请问这本书是什么书啊？
静态随机存取存储器SRAM，基本的SRAM逻辑结构、读/写时序
2301_76735025: 读的时序图中的i/o 数据那一段空白是怎么情况

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。