因为数据要存入Excel中,所以首要目标是找个办法将数据能够存入excel中
经过在网上一番搜索后,发现用python里的xlwt模块可以比较容易的解决
一、准备工作
1、安装xlwt模块:
可以看http://blog.csdn.net/junli_chen/article/details/53666309这篇文章
不过好像也可以直接在cmd里用 pip install xlwt 命令安装。不过保险一点就是按链接的文章来操作
2、xlwt的操作:
基本操作:http://www.cnblogs.com/wind-wang/p/5663539.html
xlwt模块列宽、行高heights详解:http://www.bkjia.com/Pythonjc/1073801.html
这两篇文章都写的比较详细了,我就不在赘述了。在这里还是要感谢这些文章的作者
能够分享资料和经验
二、爬虫目的
写这个爬虫的目的主要是抓取在网易云音乐里,华语男歌手top10的歌手的热门歌曲信息。
信息包括歌曲名称,歌曲所属专辑和歌曲的网页链接
三、网页分析
1、首先先打开http://music.163.com/#/discover/artist/cat?id=1001,这个是华语男歌手的页面
然后我们查看下源代码,发现看不到我们想要的信息
这时我们再次右击网页发现有个查看框架的源代码
点进去后就发现了想要的内容
其实还有一种办法,就是点击审查元素,找到一个叫做cat?id=1001的文件
在Response里可以看到代码,然后在Headers里可以看到request URL
到现在我们可以发现http://music.163.com/#/discover/artist/cat?id=1001这个url不能看到页面的源码,
而http://music.163.com/discover/artist/cat?id=1001这个可以,其实就是有一个"#"的区别
现在点进一个歌手的界面
同样的用查看框架源代码的方法,可以获取到这个页面的源码,接下来就可以爬取了