#!/usr/bin/python3
# -*- coding: UTF-8 -*-
import urllib.request
import urllib.error
import re
import csv
import time
global_row = 0
'''
需求:
爬取京东商品数据,以‘java’关键字为例。要求使用最基础的urllib和re库。
需要保存书名,价格,评论数,出版社等信息。
实现:
找出页面规律如下
一、每页显示60个商品,但分为两部分。
1. 每页前30个商品,通过search.jd.com/Search?keyword=java接口获取
每页后30个商品,通过search.jd.com/s_new.php?keyword=java接口获取,这个接口是个XHR请求,通过Chrome的开发者选项可以看出。模拟人向下滚动页面
2. 每个接口有两个关键的参数'page'和's'
参数'page'好理解,就是页面数。对第一个接口变化规律为1,3,5...,对第二个接口变化规律为2,4,6...;
参数's'我猜应该是start,也就是起始商品的索引。实际测试时,这个参数变化不是很规律,这里强制设置每页30个,
这样对第一个接口变化规律1,61,121...,对第二个接口变化规律为31,91,151...
3. 对于获取不到商店名称