- 博客(3)
- 收藏
- 关注
原创 网络爬虫实践(二)-动态页面
背景我们可以采用查看网页源代码的方式,获取网页信息,但是,对于动态页面,很可能无法在源代码中,找到目标信息。比如,虾米精选集中,当精选集中的歌曲数目超过50首,点击加载更多后,直接查看网页源代码,依然无法看到第50首后的歌曲信息。 这是因为,使用了Ajax(Asynchronous JavaScript and XML)技术。在不重新加载整个页面的情况下,web与服务器实现数据交互。Ajax请求数
2016-04-25 09:46:54 598
原创 网络爬虫实践(一)-虾米精选集及歌曲
需求1、抓取虾米用户的精选集,及各精选集下的歌曲列表 2、将抓取到的数据存储至文件 思路1、抓取页面内容 2、正则表达式匹配字符串,并返回匹配信息 3、遍历所有页面 具体实现一、抓取页面内容urllib2是接受url请求的模块。导入扩展包后,使用request()方法,给服务器发送Http请求。调用urlopen()方法打开url: url = "http://www.xiami.com
2016-04-25 09:45:56 2346
原创 appium环境搭建、使用
MAC appium环境搭建、使用一、环境的搭建真心繁琐。由于appium是node.js写的,所以,除了要安装appium外,还要安装Xcode等开发环境。 OS 10.11.4 Xcode 6.0 object-C开发环境 1、brew: MAC OS软件包管理工具。可方便地安装、卸载软件。 安装命令:ruby -e “$(curl -fsSL https://raw.github.
2016-04-24 21:47:03 560
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人