python对京东评论的爬取_python爬取京东评论(三)

本文介绍如何使用Python爬取京东不同品牌的文胸评论,通过获取商品ID拼接URL,解析JSON数据,展示产品颜色和尺寸信息。利用多线程进行数据抓取,并提到首页的AJAX加载机制,文章意在进一步完善和扩展爬虫功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上篇我们只爬了一个牌子的文胸,这次我们来多爬几个牌子的

1.爬取不同牌子的url

得到id

其实可以直接爬那个href,但我发现有的带了https有的没带就索性直接取id拼接了

import requests

import json

import threading

import time

import re

from lxml import etree

class cup:

def __init__(self):

self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}

self.url = 'https://item.jd.com/'

def vari_cpu(self):#取到不同类型文胸的评论json

url_list = []

url = 'https://search.jd.com/Search?keyword=%E6%96%87%E8%83%B8&enc=utf-8&spm=2.1.1'

html = requests.get(url,headers = self.headers).text

html = etree.HTML(html)

cpu_link = html.xpath('//div[@class="p-icons"]/@id')

for i in cpu_link:#网页后缀

i = i[6::] #得到数字的部分

Fin_url = f'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv12370&productId={i}'

#format的新用法

url_list.append(Fin_url) #url列表

return url_list

def get_json(self,url):

res = requests.get(url, headers=self.headers).text

s = re.compile(r'fetchJSON_comment.*?\(')

uesless = str(s.findall(res))

jd = json.loads(res.lstrip(uesless).rstrip(');'))

com_list = jd['comments']

for i in com_list:

print(i['productColor'],i['productSize'])

if __name__ == '__main__':

pa = cup()

url_list = pa.vari_cpu()

for j in url_list:

for i in range(3):

js_url = j+'&score=0&sortType=5&page=%d&pageSize=10&isShadowSku=0&rid=0&fold=1'%i

time.sleep(1)

t = threading.Thread(target=pa.get_json, args=(js_url,))

t.start()

我直接把json的url里面的id换成各自的id了,发现竟然可行,那就可行吧,省的麻烦.

这里还是有不完善的地方,就是那个线程,等会儿去补补线程进程内容,再改进一波,这个不敢爬多,先微微爬点看看,不过我看那一堆玩意儿是贞德多,就不发了

宁外我还发现它的首页竟然还藏着一个ajax,当你不下拉时就30个牌子,一下拉变60个了.....

未完待续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值