java爬虫 教程_Java爬虫其实也很简单,教你实用的入门级爬虫

原标题:Java爬虫其实也很简单,教你实用的入门级爬虫

任何语言都是可以爬虫的,只要你懂的常用的http协议啥的就可以模仿浏览器的行为获取你想要的数据。这里我将教大家一个简单实用的案例:如何获取全民K歌的下载链接。

ps: 这主要是教大家一个入门级的爬虫,不是希望大家去跳过vip下载...

那种专业fildder这类软件抓包我就不提了,免得文章显得更加复杂化。

推荐用谷歌浏览器容易看。

1.打开浏览器进去一个分享链接

2.按F12进入开发者模式

3.点击NetWork

4.最好重新刷新一下页面看下所有访问路径

c96c9cbc2ce45cec6df86cd7a3777a38.png

只要是网页浏览器就可以抓到所有的访问请求。接下来就是寻找那个音乐的链接了:

0fddc3f735faef39c7e25deb753f4fe0.png

等你找到你会发现很显然,那个路径没有任何规律,也不知道下载路径如何而来。但是只要思想不滑坡,办法总比困难多。我们找一下是否可以在HTML这些直接找到现成的链接,音乐的播放标签一般都是audio

我们去Element查找这个节点的时候可以发现确实有下载链接

c896474ed74a06ceaac1ac89a9a5b5e8.png

这样我们大概知道链接的地址了!我们就可以放开手撸代码了!

这里我推荐用Jsoup,我用的是版本是1.11.2。

maven:http://www.mvnrepository.com/artifact/org.jsoup/jsoup/1.11.2

打印出来的HTML不出所料,就找不到audio的标签,很明显是后续才加载出这个标签来播放音乐的。那这个下载地址是哪里来的呢。我们可以在打印出来的HTML可以找到其他线索:

不出所料,在所有标签中 的第三个我们发现了猫腻。

2f2e21f95bb30add5cce9240a85aa281.png

所有的数据都在这个标签里,包括评论,送花,歌曲链接等等所有都在里面。我们拿到标签里的内容就可以了。里面的参数竟然是标准的json格式更加天助我也!我们用代码去掉闲杂人等。

接下来就是Json解析成自己的实体类对象啥的了。这块没啥好说的,不是我们的教程范围。我一般用的simpleJson,gson,fastJson。阿里巴巴的我用的多一点。

最后我把这段代码功能接入我的微信公众号实现效果:

2717a288bd6c39cd48c4eb7a866ed61d.png

该教程仅供学习参考返回搜狐,查看更多

责任编辑:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值