取本地数据_Python爬取多点商城整站商品数据-CSDN博客

本文链接：https://blog.csdn.net/weixin_39767645/article/details/111696647

Python爬取多点商城整站步骤介绍：

1、Python开发工具pycharm安装，Python-3.6.4(Mac、Windows)即可，PHPStudy/XMAPP集成环境搭建(其他集成环境也可)；2、展示多点商城设计特点图；3、列出分析爬取多点整站思维导图；4、需求分析；5、爬取操作过程；6、编写代码；7、表结构设计，代码经过多次修改健壮无比，导出sql文件使用即可；8、注意事项(申明)

多点商城设计特点图

① 首先我们先浏览下多点商城页面，展示图如下：

② 我们主要关注爬取页设计结构，对应上图中的分类模块，分类模块包含了多点商城全部数据，我们只爬取分类模块就可以了，展示图如下：

三、列出分析爬取多点整站思维导图

在文章开头列出了很多疑问，我们应该怎么样获取我们需要的数据那，这部分我们用思维导图来列出我们需要做的事情，思维导图会更加清晰的理清我们的思路，思维导图如下：

四、需求分析

多点商城中的商品信息比较全面，符合我们工作需求，多点商城中商品图片很是清晰，商品包括的信息全面：商品名字、商品展示图、商品详情轮播图、商品规格参数、商品介绍图、商品分类、品牌brand、商品唯一对应的skuid、商品分类id、猜你喜欢商品图、商品价格等等。

① 获取到数据录入sql数据表设计展示如下：

② 本地数据展示图

设置好自己的域名以后，可以远程或者本地连接自己的数据库(商品库)，终于拥有了属于自己的商品库喽。

五、爬取操作过程

① 获取爬取网站链接多点商城

② 进入分类，分析大分类和小分类之间的联系，并分析我们爬取数据的对象，爬取对象是小分类，截图如下：

③ 我们应该怎么样获取小分类的链接哪，接下来我们展示操作过程，鼠标点击右键查看检查审查元素，获取到的链接地址，操作过程截图如下：

④ 对于审查得到的数据我们应该怎么获取数据哪，接下来我对链接到的数据进行分析，在浏览器中打开我们获取的数据列表如下：

⑤ 接下来就是编写代码的时候，编写代码我放到下部分进行分享

六、撸代码(撸代码是一件很快乐的事)

① 在Ptython3.6.4环境中进行开发的，在开发过程中用到了很多Python包如下：

'''这是小编准备的python爬虫学习资料，加群：821460695 即可免费获取！'''# urllib请求用到的开发包from urllib import request# os是创建文件或者文件夹的开发包import os# json处理python对象和字符串之间的转换import json# jsonpath获取数据中需求字段的开发包import jsonpath# time主要用来设置休眠时间import time# ssl验证import ssl# selenium自动化，处理动态jsfrom selenium import webdriver# pymysql连接数据库包import pymysql# lxml解析包from lxml import etree

② 打开PHPStudy或者XMAPP集成服务器，用pymysql包连接mysql，自动创建数据库、表名、生成我们设定的字段；

③ 我们用urllib包来请求我们审查到的链接，请求到数据并转化成我们需要的json格式；

④ 用jsonpath模块来解析json数据，获取我们需要的字段；

⑤ 用selenium动态获取js数据，并分析获取到数据页数；

⑥ 所有工作准备完毕后，执行成功后，就插入数据表中，并同时把图片保存到本地

附源码

from urllib import requestimport osimport jsonimport jsonpathimport timeimport sslfrom selenium import webdriverimport pymysqlfrom lxml import etree'''这是小编准备的python爬虫学习资料，加群：821460695 即可免费获取！'''ssl._create_default_https_context = ssl._create_unverified_contextclass PythonSugar(): def __init__(self): # 爬取分类修改修改：商品列表地址、商品详情地址、存储的商品分类id=11347 self.url = 'https://gatewx.dmall.com/customersite/searchWareByCategory?param={"pageNum":1,"pageSize":41,"venderId":"1