取本地数据_Python爬取多点商城整站商品数据

Python爬取多点商城整站步骤介绍:

1、Python开发工具pycharm安装,Python-3.6.4(Mac、Windows)即可,PHPStudy/XMAPP集成环境搭建(其他集成环境也可);2、展示多点商城设计特点图;3、列出分析爬取多点整站思维导图;4、需求分析;5、爬取操作过程;6、编写代码;7、表结构设计,代码经过多次修改健壮无比,导出sql文件使用即可;8、注意事项(申明)

多点商城设计特点图

① 首先我们先浏览下多点商城页面,展示图如下:

f8d8373d1c11120849d1274b8ef5eb7b.png
8a403860c928320eb8f02826afde72ed.png

② 我们主要关注爬取页设计结构,对应上图中的分类模块,分类模块包含了多点商城全部数据,我们只爬取分类模块就可以了,展示图如下:

0f72a0f250feb1ebc161ab17cd83db74.png

三、列出分析爬取多点整站思维导图

在文章开头列出了很多疑问,我们应该怎么样获取我们需要的数据那,这部分我们用思维导图来列出我们需要做的事情,思维导图会更加清晰的理清我们的思路,思维导图如下:

f427134bae3d39607b514b37e46076d6.png

四、需求分析

多点商城中的商品信息比较全面,符合我们工作需求,多点商城中商品图片很是清晰,商品包括的信息全面:商品名字、商品展示图、商品详情轮播图、商品规格参数、商品介绍图、商品分类、品牌brand、商品唯一对应的skuid、商品分类id、猜你喜欢商品图、商品价格等等。

① 获取到数据录入sql数据表设计展示如下:

917920ef579e98600bbab50b8c15b26d.png

② 本地数据展示图

21cc84e5e3a05224e770e547f1d61c47.png

设置好自己的域名以后,可以远程或者本地连接自己的数据库(商品库),终于拥有了属于自己的商品库喽。

五、爬取操作过程

① 获取爬取网站链接多点商城

② 进入分类,分析大分类和小分类之间的联系,并分析我们爬取数据的对象,爬取对象是小分类,截图如下:

31da7eea71d3306e9e3508eb340000bd.png

③ 我们应该怎么样获取小分类的链接哪,接下来我们展示操作过程,鼠标点击右键查看检查审查元素,获取到的链接地址,操作过程截图如下:

fefd57de94d8da236a2e0f8fa32ae9c4.png
9ed57d0e4fa680ddcb4d72c63b77c52f.png

④ 对于审查得到的数据我们应该怎么获取数据哪,接下来我对链接到的数据进行分析,在浏览器中打开我们获取的数据列表如下:

57d9d54c32f76c8b6cfdc3fda3782ff1.png

⑤ 接下来就是编写代码的时候,编写代码我放到下部分进行分享

六、撸代码(撸代码是一件很快乐的事)

① 在Ptython3.6.4环境中进行开发的,在开发过程中用到了很多Python包如下:

'''这是小编准备的python爬虫学习资料,加群:821460695 即可免费获取!'''# urllib请求用到的开发包from urllib import request# os是创建文件或者文件夹的开发包import os# json处理python对象和字符串之间的转换import json# jsonpath获取数据中需求字段的开发包import jsonpath# time主要用来设置休眠时间import time# ssl验证import ssl# selenium自动化,处理动态jsfrom selenium import webdriver# pymysql连接数据库包import pymysql# lxml解析包from lxml import etree

② 打开PHPStudy或者XMAPP集成服务器,用pymysql包连接mysql,自动创建数据库、表名、生成我们设定的字段;

③ 我们用urllib包来请求我们审查到的链接,请求到数据并转化成我们需要的json格式;

④ 用jsonpath模块来解析json数据,获取我们需要的字段;

⑤ 用selenium动态获取js数据,并分析获取到数据页数;

⑥ 所有工作准备完毕后,执行成功后,就插入数据表中,并同时把图片保存到本地

附源码

from urllib import requestimport osimport jsonimport jsonpathimport timeimport sslfrom selenium import webdriverimport pymysqlfrom lxml import etree'''这是小编准备的python爬虫学习资料,加群:821460695 即可免费获取!'''ssl._create_default_https_context = ssl._create_unverified_contextclass PythonSugar(): def __init__(self): # 爬取分类修改修改:商品列表地址、商品详情地址、存储的商品分类id=11347 self.url = 'https://gatewx.dmall.com/customersite/searchWareByCategory?param={"pageNum":1,"pageSize":41,"venderId":"1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值