python
文章平均质量分 93
isobel_G
这个作者很懒,什么都没留下…
展开
-
网络爬虫实践(一)-虾米精选集及歌曲
需求1、抓取虾米用户的精选集,及各精选集下的歌曲列表 2、将抓取到的数据存储至文件 思路1、抓取页面内容 2、正则表达式匹配字符串,并返回匹配信息 3、遍历所有页面 具体实现一、抓取页面内容urllib2是接受url请求的模块。导入扩展包后,使用request()方法,给服务器发送Http请求。调用urlopen()方法打开url: url = "http://www.xiami.com原创 2016-04-25 09:45:56 · 2365 阅读 · 0 评论 -
网络爬虫实践(二)-动态页面
背景我们可以采用查看网页源代码的方式,获取网页信息,但是,对于动态页面,很可能无法在源代码中,找到目标信息。比如,虾米精选集中,当精选集中的歌曲数目超过50首,点击加载更多后,直接查看网页源代码,依然无法看到第50首后的歌曲信息。 这是因为,使用了Ajax(Asynchronous JavaScript and XML)技术。在不重新加载整个页面的情况下,web与服务器实现数据交互。Ajax请求数原创 2016-04-25 09:46:54 · 608 阅读 · 0 评论