1.美空网数据-简介
从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做“美空网”网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 下面这个网址
http://www.moko.cc/post/1302075.html
然后在去分析一下,我需要找到一个图片列表页面是最好的,作为一个勤劳的爬虫coder,我找到了这个页面
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html
列表页面被我找到了,貌似没有分页,这就简单多了,但是刚想要爬,就翻车了,我发现一个严重的问题。
http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html
我要做的是一个自动化的爬虫,但是我发现,出问题了,上面那个黄色背景的位置是啥?
ID,昵称,个性首页,这个必须要搞定。
我接下来随机的找了一些图片列表页,试图找到规律到底是啥?
- http://www.moko.cc/post/978c74a0375f4edca114e87b0a45a0b5/list.html
- http://www.moko.cc/post/jundayi/list.html
- http://www.moko.cc/post/slavik/list.html
- …
没什么问题,发现规律了