为什么代码正确却没有爬虫的信息_初学爬虫时,如何正确的找到信息节点?

45a9dabc1010f526e25646963e36c72b.png

初学爬虫时,如何正确的找到信息节点?

遇到的问题

上个月,有个朋友在初学爬虫的时候遇到了一个问题,给他解决问题的同时写了一个文档。今天给大家分享一下吧。也许你也会遇到相同的疑问。

在初学爬虫时,你可能会遇到一个问题,如何才能正确的从网页上分析出想要的节点呢?在此之前,你需要先了解一个知识点,HTML。

了解 HTML

W3C,地址:

HTML 教程​www.w3school.com.cn

乍一看,内容很多的样子,但是实际上你只需要花 20 分钟大致了解下 HTML 基本的元素组成即可。就像下图,了解红框即可:

8f378991c3ab55f77fb1ec69c7699b02.png

举个栗子

像笔者之前小课堂提到的熊猫直播,已经晾凉了,这次采用章鱼直播给大家举个栗子吧!(采用了他提供的直播站来讲解下)

章鱼直播地址:

直播-章鱼-全民原创互动的体育直播​www.zhangyu.tv

1.首先,明确要获取的信息,按下 F12,查看元素:

f61bcb4d16e1160732c05a2d4af8302e.png

2.找到一组自己想要的数据:

a90f9d0b69ac46963c8242ef4808d71f.png

3.观察多组数据,分析节点:

72718af8c0b7933d5bde332ff7648a18.png

4.分析节点,统计数据:

2da6cb0165c2c96b89200ff8cd37950e.png

找到爬取内容的前后节点信息,在 F12 中 Ctrl + F 搜索下 class ,看看有多少个,比如上面一共 94 个符合的class,说明基本符合房间数。

5.写正则匹配,将内容匹配出来即可。

df815448edd660a33f23189ca3358684.png

具体正则写法,不赘述了,就是利用定界,分组原理即可。

结果如下:

c006689e229bc41c5aee60ca9d104329.png

总结

入门级的爬虫学习,可以找有规律的网站去小试牛刀,上手之后可以尝试深入学习。

在程序的实现上,正则表达式并不是唯一提取信息的手段,还有其他的手段,比如 Python 的 BeautifulSoup 库等...要明白哪些是具有共同性的,分析节点的思维是亘古不变的,无非变得就是代码实现而已。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值