使用Python 爬取京东、淘宝等商品详情页的数据，避开反爬虫机制_爬虫抓取淘宝京东(1)

最新推荐文章于 2025-03-17 17:06:16 发布

程序员8000

最新推荐文章于 2025-03-17 17:06:16 发布

阅读量1.4k

点赞数 22

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2201_75604580/article/details/138774069

版权

程序员专栏收录该内容

171 篇文章

订阅专栏

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

（4）200多本电子书

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。

基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

（5）Python知识点汇总

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

（6）其他资料

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

                                              del r
                                             except Exception as e:
                                                print("图片禁止访问:"+imgSrc) 
                     listImg=html.xpath('//*[contains(@class,"ssd-module")]') 
                     if len(listImg)==0:
                          listImg=html.xpath('//*[contains(@id,"J-detail-content")]//div//div//p//img')
                     if len(listImg)==0:
                          listImg=html.xpath('//*[contains(@id,"J-detail-content")]//img')
                     if len(listImg)>0:
                           for index in range(len(listImg)):  
                                detailsHTML=listImg[index].attrib
                                if 'data-id' in detailsHTML:
                                      try:
                                       details= driver.find_element_by_class_name("animate-"+listImg[index].attrib['data-id']).value_of_css_property('background-image')
                                       details=details.replace('url(' , ' ')
                                       details=details.replace(')' , ' ')
                                       newDetails=details.replace('"', ' ')
                                       details=newDetails.strip()
                                       print("详情图下载："+details)
                                       try:
                                              Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
                                              r = requests.get(details, headers=Headers, stream=True)
                                              if r.status_code == 200:
                                                 imgUrl=''
                                                 imgUrl+=code + "_详情图_" + str(index)  + '.' + details.split('//')[1].split('/')[len(details.split('//')[1].split('/'))-1].split('.')[1]
                                                 open(os.getcwd()+'/img/'+   imgUrl, 'wb').write(r.content) # 将内容写入图片
                                              del r
                                       except Exception as e:
                                                print("图片禁止访问:"+details) 
                                      except Exception as e:      
                                           print('其他格式的图片不收录');       
                                if  'src' in detailsHTML:
                                     try:
                                       details= listImg[index].attrib['src']
                                       if 'http' in details:
                                                 pass
                                       else:
                                                 details='https:'+details
                                       print("详情图下载："+details)
                                       try:
                                              Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
                                              r = requests.get(details, headers=Headers, stream=True)
                                              if r.status_code == 200:
                                                 imgUrl=''
                                                 imgUrl+=code + "_详情图_" + str(index)  + '.' + details.split('//')[1].split('/')[len(details.split('//')[1].split('/'))-1].split('.')[1]
                                                 open(os.getcwd()+'/img/'+   imgUrl, 'wb').write(r.content) # 将内容写入图片
                                              del r
                                       except Exception as e:
                                                print("图片禁止访问:"+details) 
                                     except Exception as e:      
                                           print('其他格式的图片不收录'); 

                   print('结束执行')

     

 @staticmethod
 def readxlsx(inputText):
    filename=inputText
    inwb = openpyxl.load_workbook(filename)  # 读文件
    sheetnames = inwb.get_sheet_names()  # 获取读文件中所有的sheet，通过名字的方式
    ws = inwb.get_sheet_by_name(sheetnames[0])  # 获取第一个sheet内容
    # 获取sheet的最大行数和列数
    rows = ws.max_row
    cols = ws.max_column
    for r in range(1,rows+1):
        for c in range(1,cols):
            if ws.cell(r,c).value!=None and r!=1 :
             if 'item.jd.com' in str(ws.cell(r,c+1).value) and str(ws.cell(r,c+1).value).find('i-item.jd.com')==-1:
                 print('支持:'+str(ws.cell(r,c).value)+'|'+str(ws.cell(r,c+1).value))
                 EgongYePing().Init(str(ws.cell(r,c+1).value),str(ws.cell(r,c).value))
             else:
                 print('当前格式不支持:'+(str(ws.cell(r,c).value)+'|'+str(ws.cell(r,c+1).value)))
                 pass
    pass

if name == “main”:
start = EgongYePing()
start.readxlsx(r’C:\Users\newYear\Desktop\爬图.xlsx’)


基本上除了过期的商品无法访问以外。对于京东的三种页面结构都做了处理。能访问到的商品页面。还做了模拟浏览器请求访问和下载。基本不会被反爬虫屏蔽下载。


### 干货主要有：


* ① 200 多本 Python 电子书（和经典的书籍）应该有
* ② Python标准库资料（最全中文版）
* ③ 项目源码（四五十个有趣且可靠的练手项目及源码）
* ④ Python基础入门、爬虫、网络开发、大数据分析方面的视频（适合小白学习）
* ⑤ Python学习路线图（告别不入流的学习）


![在这里插入图片描述](https://img-blog.csdnimg.cn/f918f414b368420486b9683e23506648.jpeg#pic_center)  
 **上述这份完整版的Python全套学习资料已经上传CSDN官方，如果需要可以微信扫描下方CSDN官方认证二维码 即可领取**



> 
> 👉[[[CSDN大礼包：《python安装包&全套学习资料》免费分享]]]( )（**安全链接，放心点击**）
> 
> 
> 



![](https://img-blog.csdnimg.cn/img_convert/78a9be59a28e7e8d1fed6806141d1694.png)



![img](https://img-blog.csdnimg.cn/img_convert/f493d79ffbc603dc34f74dcf0ffbef90.png)


上面这一段是以火狐模拟器运行


![img](https://img-blog.csdnimg.cn/img_convert/ad68cf83b4c14f61882d504147eee1e5.png)


上面这一段是模拟浏览器下载。如果不加上这一段。经常会下载几十张图片后，很长一段时间无法正常下载图片。因为没有请求头被认为是爬虫。


![img](https://img-blog.csdnimg.cn/img_convert/caefa2adb15ed024a8795e11a401f776.png)


上面这段是京东的商品详情页面，经常会三种？（可能以后会更多的页面结构）


所以做了三段解析。只要没有抓到图片就换一种解析方式。这杨就全了。


![img](https://img-blog.csdnimg.cn/img_convert/9509a7c78de0c85391bc15a48b89a043.png)


京东的图片基本只存/1.jpg。然后域名是 https://img14.360buyimg.com/n0/。所以目前要拼一下。


![img](https://img-blog.csdnimg.cn/img_convert/0086d3be0559770f5e01e5c7bacb8695.png)


京东还有个很蛋疼的地方是图片以data-id拼进div的背景元素里。所以取出来的时候要绕一下。还好也解决了。


以下是爬取京东商品详情的Python3代码，以excel存放链接的方式批量爬取。excel如下


![img](https://img-blog.csdnimg.cn/img_convert/e6ca5226b58b7e3ac8122d9ecd644a9c.jpeg)


因为这次是淘宝和京东一起爬取。所以在一个excel里。代码里区分淘宝和京东的链接。以下是代码

from selenium import webdriver
from lxml import etree
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import datetime
import calendar
import logging
from logging import handlers
import requests
import os
import time
import pymssql
import openpyxl
import xlrd
import codecs

class EgongYePing:

 options = webdriver.FirefoxOptions()
 fp = webdriver.FirefoxProfile()
 fp.set_preference("browser.download.folderList",2)  
 fp.set_preference("browser.download.manager.showWhenStarting",False)
 fp.set_preference("browser.helperApps.neverAsk.saveToDisk","application/zip,application/octet-stream")
 global driver 
 driver= webdriver.Firefox(firefox_profile=fp,options=options)
 def Init(self,url,code):
                   #driver = webdriver.Chrome('D:\python3\Scripts\chromedriver.exe')
                   #driver.get(url)
                   print(url.strip())
                   driver.get(url.strip())
                   #driver.refresh()
                   # 操作浏览器属于异步，在网络出现问题的时候。可能代码先执行。但是请求页面没有应答。所以硬等
                   time.sleep(int(3))
                   html = etree.HTML(driver.page_source) 
                   if driver.title!=None:
                     listImg=html.xpath('//*[contains(@id,"J_UlThumb")]//img')
                     if len(listImg)==0:
                          pass
                     if len(listImg)>0:
                                        imgSrc=''
                                        for item in range(len(listImg)):    
                                             search=listImg[item].attrib
                                             if 'data-src' in search:
                                                imgSrc=listImg[item].attrib["data-src"].replace('.jpg_50x50','')
                                             else:
                                                imgSrc=listImg[item].attrib["src"]
                                             if 'http' in imgSrc:
                                                 pass
                                             else:
                                                 imgSrc='https:'+imgSrc
                                             print('头图下载:'+imgSrc)
                                             try:
                                              Headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0'}
                                              r = requests.get(imgSrc, headers=Headers, stream=True)
                                              if r.status_code == 200:
                                                 imgUrl=''
                                                 if item==0:
                                                      imgUrl+=code + "_主图_" + str(item)  + '.' + imgSrc.split('//')[1].split('/')[len(imgSrc.split('//')[1].split('/'))-1].split('.')[1]
                                                 else:
                                                      imgUrl+=code + "_附图_" + str(item)  + '.' + imgSrc.split('//')[1].split('/')[len(imgSrc.split('//')[1].split('/'))-1].split('.')[1]
                                                 open(os.getcwd()+'/img/'+  imgUrl , 'wb').write(r.content) # 将内容写入图片
                                              del r
                                             except Exception as e:
                                                print("图片禁止访问:"+imgSrc) 
                     listImg=html.xpath('//*[contains(@id,"J_DivItemDesc")]//img')
                     if len(listImg)>0:
                           for index in range(len(listImg)):  
                                detailsHTML=listImg[index].attrib
                                if 'data-ks-lazyload' in detailsHTML:
                                    details= listImg[index].attrib["data-ks-lazyload"]
                                    print("详情图下载："+details)
                                else:

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。