要爬取的网站不需要登陆,没有反爬机制,操作很简单
首先安装需要的程序包
pip install requests
pip install beautifulsoup4
pip install xlwt
#信息实体类
class product_info(object):
serios = '' # 存放商品系列
productActualPrice = '' # 存放商品成交价
productOldPrice = '' # 存放商品面价
detailString = '' # 存放商品详情
productCategory = '' # 产品类目
productName = '' # 产品名称
productTypeNum = '' # 产品型号
productFactory = '' # 产品厂家
'''
实际下载方法
'''
class downloader(object):
def __init__(self):
self.server = ''
self.target = ''
self.pageUrls = [] # 存放各个页面链接
self.productUrls = [] # 存放各个商品链接
self.productInfo = [] # 商品信息列表,用以保存至Excel
'''
初始化serverUrl及targetUrl
'''
def init(self,serverUrl,targetUrl):
self.server = serverUrl
self.target = targetUrl
'''
获取全部的分页页面
'''
def get_page_urls(self):
req = requests.get(url=self.target)
s