提取网页中的href 爬虫_爬虫中网页数据获取后的三种处理方法

爬虫如风,常伴吾身……

在日常的折腾中,无论是我的网站被人爬,还是别人的网站被我爬,这像是一个博弈的过程。双方在“隐形条约”下完成自己的任务,正所谓君子之交淡如水,我不知道他是谁,他也不知道我是谁,我们互相为对方提供所需要的信息。或许这种关系更像是江湖,纯粹的江湖,不讲莺莺燕燕和人情世故。只讲轻舟江上对饮,竹林剑鸣,点到为止。而后双方收剑而去,更不会有人啰嗦着问一句:“来将何人?报上名来。”

爬虫中重要的一环就是数据处理。虽然静态加载的网页结构千差万别,界面看起来也各有特色,但爬取到的数据是单一的,都是DOM结构“子孙”。即使明白筛选数据的本质就是处理字符串,但其中的处理办法也层出不穷。以下根据不同的网页风格,对症下药。

一:“好孩子”式网页

特点:有完整的DOM结构,虽然有的时候采用“乱七八糟”的编码,如:gb2312等,但它的本质还是个“好孩子”。

示例网址:百度搜索风云榜 http://top.baidu.com/buzz?b=1

分析:查看源码可以简单的看出风云榜的新闻格式均为

的子节点,而我们需要的部分正是的子节点 标签。且a标签的属性class为“list-title”。

像这种网页是典型的“好孩子”网页,有良好的可视的DOM结构,所需要的信息都来自相同的结构,解析的时候不用费很大的劲。

解析办法࿱

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值