爬取字段和图片 spider_getModelInformation

最新推荐文章于 2024-07-12 16:42:46 发布

weixin_30455023

最新推荐文章于 2024-07-12 16:42:46 发布

阅读量84

点赞数

文章标签： json

原文链接：http://www.cnblogs.com/sushome/p/6144812.html

版权

import urllib
import urllib2
import re

class Spider:

def getPage(self,pageIndex):
　　url="http://mm.taobao.com/json/request_top_list.htm?page="+str(pageIndex)
　　request=urllib2.Request(url)
　　response=urllib2.urlopen(request)
　　return response.read().decode('gbk')

def getContents(self,pageIndex):
　　page=self.getPage(pageIndex)
　　pattern=re.compile('<a class="lady-name" href="(.*?)".*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
　　items=re.findall(pattern,page)
　　for item in items:
　　print "Personal Address",item[0]
　　print "Name",item[1],"Age",item[2],"city",item[3]

def start(self,start,end):
　　for i in range(start,end+1):
　　print "This is NO.",i,"model"
　　self.getContents(i)

spider=Spider()
spider.start(1,5)

转载于:https://www.cnblogs.com/sushome/p/6144812.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30455023

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬取字段和图片 spider_getModelInformation

import urllibimport urllib2import reclass Spider:def getPage(self,pageIndex):　　url="http://mm.taobao.com/json/request_top_list.htm?page="+str(pageIndex)　　request=urllib2.Request(url)　　response=urlli...
复制链接

扫一扫