介绍:
网易有一个图片社交网站叫LOFTER (乐乎),网站中有大量的晒图,其中不乏有各种“美好”的图片,当然我指的是摄影师的作品。通过爬虫来爬取乐乎网站的图片,网站链接: http://www.lofter.com/ ,当然类似的这种网站结构都可以套用本文中的代码,只需在提取 规则上改动,如百度贴吧中的图片,壁纸图片网页。并且这些网站一般没有反爬虫机制,毕竟要考虑经济成本,本身就没哟什么数据价值的东西,索性随便爬吧。本例只是练习使用,并没有实际价值。
使用的库:
发送请求常用的两个库:urllib2和requests,requests库时基于urllib3实现。
通过lxml库来解析response:使用lxml前注意先确保html经过了utf-8解码,即code = html.decode('utf-8', 'ignore'),否则会出现解析出错情况。因为中文被编码成utf-8之后变成 '/u2541' 之类的形式,lxml一遇到 “/”就会认为其标签结束。因此还要导入urllib库进行Unicode转码。
网页提取特定数据的方式: