python爬取京东商品代码_Python简单爬取京东商品列表

#!/usr/bin/python3

# -*- coding: UTF-8 -*-

import urllib.request

import urllib.error

import re

import csv

import time

global_row = 0

'''

需求:

爬取京东商品数据,以‘java’关键字为例。要求使用最基础的urllib和re库。

需要保存书名,价格,评论数,出版社等信息。

实现:

找出页面规律如下

一、每页显示60个商品,但分为两部分。

1. 每页前30个商品,通过search.jd.com/Search?keyword=java接口获取

每页后30个商品,通过search.jd.com/s_new.php?keyword=java接口获取,这个接口是个XHR请求,通过Chrome的开发者选项可以看出。模拟人向下滚动页面

2. 每个接口有两个关键的参数'page'和's'

参数'page'好理解,就是页面数。对第一个接口变化规律为1,3,5...,对第二个接口变化规律为2,4,6...;

参数's'我猜应该是start,也就是起始商品的索引。实际测试时,这个参数变化不是很规律,这里强制设置每页30个,

这样对第一个接口变化规律1,61,121...,对第二个接口变化规律为31,91,151...

3. 对于获取不到商店名称

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值