Linux 抓取网页实例(shell+awk)

从接到通知到面试,准备了三天的面试,暂告一段落,先谈点心得体会吧 ^_^

这次面试流程跟两年前差不多,先考察算法,然后测试功底,最后是综合素质,可惜我准备的方向错了,只准备了最近一年做的几个android项目,木准备算法( ⊙ o ⊙ )!

算法很考察技巧,小脑袋转不到点子上就很难想到,心里直扑通扑通,还好面试官特别特别特别的好~~ \(^o^)/~

自己最大的弱点是测试经验不足,面试最大的收获是用一面考官给的测试方法解决了二面考官的测试问题,师夷长技以自强嘛。。。哈

不管结果如何吧。。。今天的失败不要紧,要紧的是快速再学习的能力,相信只要自己每天积累一点点,总有一天小溪流终会聚成江河,直奔大海。。。上一篇博客讲了Linux抓取网页的方式,有curl和wget两种方式,这篇将重点讲Linux抓取网页的实例——抓取google play全球12国的游戏TOP排名

要抓取google play游戏排名网页,首先需要分析网页的特点和规律:

1、google play游戏排名网页,是一个就“总-分”形式,即一页网址显示若干排名(如24个),有若干个网页组成全部游戏总排名

2、每页网址中,点击每个单独的游戏连接,可以查看本游戏的属性信息(如评价星级、发布日期、版本号、SDK版本号、游戏类别、下载量等)


需要解决的问题:

1、如何抓取全部游戏总排名?

2、抓取到总排名后,如何拼接URL来抓取每个单独的游戏网页?

3、抓取到每个单独游戏网页后,如何提取网页中游戏的属性信息(即评价星级、发布日期。。。)?

4、提取到了每个单独游戏属性信息后,如何保存(mysql)、生成每日报表(html)、发送每日报表(email)?

5、根据抓取的游戏属性信息资源,如何查询自己公司的游戏排名(JSP)、如何清晰的展现游戏排名(JFreeChart图表)?

6、更难的是,google play游戏排名,并没有全球统一的排名,google采用本地化策略,几十个国家都有自己的一套排名算法和规则,如何实现12国游戏排名?


分析完这些问题后,如何逐一解决,各个击破,便是需要我们思考、设计和解决的问题(模块流程和技术实现)?
没有更多推荐了,返回首页

私密
私密原因:
请选择设置私密原因
  • 广告
  • 抄袭
  • 版权
  • 政治
  • 色情
  • 无意义
  • 其他
其他原因:
120
出错啦
系统繁忙,请稍后再试