isobel_G-CSDN博客

原创网络爬虫实践（二）－动态页面

背景我们可以采用查看网页源代码的方式，获取网页信息，但是，对于动态页面，很可能无法在源代码中，找到目标信息。比如，虾米精选集中，当精选集中的歌曲数目超过50首，点击加载更多后，直接查看网页源代码，依然无法看到第50首后的歌曲信息。这是因为，使用了Ajax（Asynchronous JavaScript and XML）技术。在不重新加载整个页面的情况下，web与服务器实现数据交互。Ajax请求数

2016-04-25 09:46:54 598

原创网络爬虫实践（一）－虾米精选集及歌曲

需求1、抓取虾米用户的精选集，及各精选集下的歌曲列表 2、将抓取到的数据存储至文件思路1、抓取页面内容 2、正则表达式匹配字符串，并返回匹配信息 3、遍历所有页面具体实现一、抓取页面内容urllib2是接受url请求的模块。导入扩展包后，使用request()方法,给服务器发送Http请求。调用urlopen()方法打开url： url = "http://www.xiami.com

2016-04-25 09:45:56 2346

原创 appium环境搭建、使用

MAC appium环境搭建、使用一、环境的搭建真心繁琐。由于appium是node.js写的,所以，除了要安装appium外，还要安装Xcode等开发环境。 OS 10.11.4 Xcode 6.0 object-C开发环境 1、brew: MAC OS软件包管理工具。可方便地安装、卸载软件。安装命令：ruby -e “$(curl -fsSL https://raw.github.

2016-04-24 21:47:03 560

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 网络爬虫实践（二）－动态页面

原创 网络爬虫实践（一）－虾米精选集及歌曲

原创 appium环境搭建、使用

空空如也

空空如也

原创网络爬虫实践（二）－动态页面

原创网络爬虫实践（一）－虾米精选集及歌曲