「python爬虫」「selenium」「电商选品数据分析」商品信息抓取小白全教程(一、源网站的获取以及一些配置的加载)

由于需要用到python进行数据的分析,而希望数据存储在云数据库上。在了解了大佬的python介绍后终于知道自己要干啥了,开始零python基础学习数据采集,而这就需要了解外部数据采集中的python爬虫。

Python开发简单爬虫学习地址

一个完整的爬虫程序,无论大小,总体来说可以分成三个步骤,分别是:
网络请求:模拟浏览器的行为从网上抓取数据。
数据解析:将请求下来的数据进行过滤,提取我们想要的数据。
数据存储:将提取到的数据存储到硬盘或者内存中。比如用mysql数据库或者redis等。

当然,数据存储也可以简单的存入表格xlsx文件或者csv文件。或者直接输出在console中。

以上

爬虫分为四个部分,写成了四个函数get_search(),get_product() ,drop_down(), next_page()

本篇主要介绍第一个函数,以及爬虫需要的一些前置配置

  • Selenium库过程中需要下载调用“chromedriver”,本机为macOS操作系统。
    这里是下载的官网网站
    当然,下载对应版本的chromedriver首先需要检查自己的Chrome版本,操作方式是:
    点击chrome左上角的“About Google Chrome”,出现版本号如下,这里我们只需要关注第一位,即“102”。
    在这里插入图片描述
    之后在上面给出的官网链接下载对应版本就好。

  • 下载好之后,需要把chromedriver文件放在/usr/bin目录下。
    大多数人使用python都是通过anaconda navigator,所以这里的方法是把chromedriver文件放入Anaconda3文件夹里的bin,
    方法是:

    在finder中找到anaconda,Get info在这里插入图片描述
    复制他的路径如下:/Users/x x x/opt/anaconda3/Anaconda-Navigator.app
    在这里插入图片描述
    再次打开finder,按commond + shift + G,输入/Users/x x x/opt/anaconda3(PS 这里截止到anaconda3)在这里插入图片描述
    将刚刚下载解压的chromedriver 拽到anaconda3的bin文件夹中在这里插入图片描述

在python环境中重新调用时,就发现可以使用chromedriver了。

get_search()负责获取源网站

安装好chrome driver之后,我这里源网站为美国家居汇总信息的网站HOME DEPOT下的Garage cabinet类,不需要手动查找商品信息。这里为直接商品分类下的网站。

def get_search():

    driver.get('https://www.homedepot.com/b/Storage-Organization-Garage-Storage-Garage-Cabinets/N-5yc1vZccv5')

    driver.implicitly_wait(10)  
    driver.maximize_window()  
    drop_down()

这里的Driver为

driver = webdriver.Chrome()
wait = WebDriverWait(driver, 10)

所以默认会用谷歌Chorme来加载爬取的网站

from selenium import webdriver

webdriver来自 selenium


接下来的完整爬虫请参考教程二~

商品信息抓取小白全教程(二、如何一步步定位目标元素信息)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值