淘宝爬虫心得


前言

本文主要介绍了淘宝爬虫中可能会遇到的问题。参考连接:淘宝爬虫


提示:以下是本篇文章正文内容,下面案例可供参考

一、运行环境

1.pycharm编译器(菜鸟编程网站有详细的安装编译器和配置环境的教程)

2.Chrome浏览器

需要下载浏览器对应的Chromedriver,下载后得到的是一个chromedriver.exe文件。
chromedriver下载地址:http://npm.taobao.org/mirrors/chromedriver/浏览器版本

浏览器设置-关于浏览器-查看版本
桌面选中Chrome浏览器右键打开文件目录把下载好的chromedriver.exe文件压缩包里的chromedriver.exe文件解压到该目录

在这里插入图片描述
配置chromedriver环境把chromedriver.exe目录地址复制到计算机环境变量Path中
在这里插入图片描述

计算机属性-高级系统设置-编辑
到此浏览器部分已完成

3.引入库

下面介绍常用两种Python库的安装方法:
(1)pip :可以在cmd中输入pip命令看看安装Pycharm编译器时有没有配置一般都会配置好,如果没有配置参考百度:https://jingyan.baidu.com/article/5bbb5a1b6e36c753eba179b8.html。
使用方法:pip install 所需库(例如本次需要安装selenium就 pip install selenium 但是有些库下载语句可能有更新需要自行查询安装语句)
在这里插入图片描述

(2)Pycharm-settings:在Pycharm中file-settings-对应工程 可看目前已在使用的库,需要安装新库可以通过选择该工程库旁加号进行搜索下载
在这里插入图片描述
到此我们所需环境就配备完成

二、使用步骤

1.设置好工程项目文件夹

工程结构:
crawler:主程序
test:测试程序
(新建包(Python Package)则会自动添加__init__.py)
在这里插入图片描述
很多同学因为这步没设置好所以建好的File报错,之所以建两个Packag是因为我们的test中的爬取是调用第一个主程序包中的库来进行。
在这里插入图片描述

2.代码调用

主程序(库)代码如下:

"""
@author:
@project: crawler
@file: tao.py
@time: 2020/11/17 15:00
@desc:
"""
import os
import platform
import time
import requests
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def judge_platform():
    """
    判断操作系统

    :return: 返回driver
    """
    if "Windows" not in platform.architecture()[1]:
        chrome_options = Options()</
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值