实例一:淘宝商品比价定向爬虫
打开淘宝,输入衬衫,链接为:
第二页的链接为:
第三页的链接为:
发现翻页操作是通过后边的参数s来操作的,每页44个商品。
ps:不知道为什么原来的链接里边 search?q=衬衫 复制过来就变成了上述打不开的链接。
哈哈,这里突然发现 https://s.taobao.com/search?q=衬衫(自己码的,不是复制过来的)就可以进去了。
输入https://s.taobao.com/search?q=衬衫&s=44 哈哈发现翻了页了。
这里提取出名称,价格还有付款人数。
首先分析定向爬虫的可行性
进入网址:http://s.taobao.com/robots.txt 查看
发现禁止爬取,但是可以以类人类行为进行爬取。作为教学实例。
程序结构设计
进入衬衫页面,查看网页源代码,按照第一个衬衫的名称,价格,已购人数搜索源码(ctrl+f)查看数据是怎么存在的。
主程序:
import requests
import re
def getHTMLText(url):
print("")
def parserPage(ilt,html):
print("")
def printGoodsList(ilt):
print("")
def main():
goods="衬衫" #指定商品名称
depth=2 #指定爬取的页面个数
start_url='https://s.taobao.com/search?q='+goods
infoList=[]
for i in range(depth):
try:
url=start_url+"&s="+str(44*i)
html=getHTMLText(url)
parserPage(infoList,html)
except:
continue
printGoodsList(infoList)
mai