问题:使用request库和re库爬取淘宝网某种商品信息,并打印出其名称和价格
分析:
1.确定淘宝网搜索商品网址及robots协议
2.分析实现步骤:
A:使用request库爬取信息
B:使用re库查找信息-findall()函数
C:打印
3.明确实现难点:分页
在确定淘宝网搜索商品网址为:https://s.taobao.com/search?q=?后,通过手动翻页分析url,得知淘宝实现翻页功能是在url后增加id,每页展示固定商品数。
代码:
import requests
import re
import time
def getText(url):
try:
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64)