python爬拼多多商品评论_爬虫简单实例-爬取拼多多商品信息

最新推荐文章于 2024-07-01 09:59:25 发布

事实求是

最新推荐文章于 2024-07-01 09:59:25 发布

阅读量4.9k

点赞数 1

文章标签： python爬拼多多商品评论

本文链接：https://blog.csdn.net/weixin_28559803/article/details/112877962

版权

这段代码展示了如何使用Python的requests库和lxml库来爬取拼多多网站上的商品信息，包括商品链接、图片链接、商品名称、价格、销量和店铺名称等，并将这些信息保存到CSV文件中。

摘要由CSDN通过智能技术生成

#!/usr/bin/env python

# -*- coding=utf-8 -*-

__author__ = 'Man Li'

import os

import re

import sys

import time

import json

import random

import requests

from requests.exceptions import ReadTimeout, ConnectionError, RequestException

import csv

from lxml import etree

from multiprocessing import Process

defaultencoding = 'utf-8'

if sys.getdefaultencoding() != defaultencoding:

reload(sys)

sys.setdefaultencoding(defaultencoding)

#USER_AGENTS 随机头信息

USER_AGENTS = [

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",

"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",

"Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",

"Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",

"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",

"Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",

"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",

"Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6&

最低0.47元/天解锁文章

事实求是

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
python爬拼多多商品评论_爬虫简单实例-爬取拼多多商品信息

#!/usr/bin/env python# -*- coding=utf-8 -*-__author__ = 'Man Li'import osimport reimport sysimport timeimport jsonimport randomimport requestsfrom requests.exceptions import ReadTimeout, ConnectionErr...
复制链接

扫一扫