淘宝爬虫心得

最新推荐文章于 2024-04-22 09:41:06 发布

qq_287041604

最新推荐文章于 2024-04-22 09:41:06 发布

阅读量1.7k

点赞数 3

分类专栏：网络爬虫

本文链接：https://blog.csdn.net/qq_31063531/article/details/110632945

版权

文章目录

前言
一、运行环境
二、使用步骤
- 1.设置好工程项目文件夹
- 2.代码调用
总结

前言

本文主要介绍了淘宝爬虫中可能会遇到的问题。参考连接：淘宝爬虫

提示：以下是本篇文章正文内容，下面案例可供参考

一、运行环境

1.pycharm编译器（菜鸟编程网站有详细的安装编译器和配置环境的教程）

2.Chrome浏览器

需要下载浏览器对应的Chromedriver，下载后得到的是一个chromedriver.exe文件。
chromedriver下载地址:http://npm.taobao.org/mirrors/chromedriver/ 浏览器版本

浏览器设置-关于浏览器-查看版本桌面选中Chrome浏览器右键打开文件目录把下载好的chromedriver.exe文件压缩包里的chromedriver.exe文件解压到该目录

在这里插入图片描述
配置chromedriver环境把chromedriver.exe目录地址复制到计算机环境变量Path中

计算机属性-高级系统设置-编辑到此浏览器部分已完成

3.引入库

下面介绍常用两种Python库的安装方法：
（1）pip ：可以在cmd中输入pip命令看看安装Pycharm编译器时有没有配置一般都会配置好，如果没有配置参考百度：https://jingyan.baidu.com/article/5bbb5a1b6e36c753eba179b8.html。
使用方法：pip install 所需库(例如本次需要安装selenium就 pip install selenium 但是有些库下载语句可能有更新需要自行查询安装语句)
在这里插入图片描述

（2）Pycharm-settings:在Pycharm中file-settings-对应工程可看目前已在使用的库，需要安装新库可以通过选择该工程库旁加号进行搜索下载
在这里插入图片描述
到此我们所需环境就配备完成

二、使用步骤

1.设置好工程项目文件夹

工程结构：
crawler：主程序
test：测试程序
(新建包(Python Package)则会自动添加__init__.py)
在这里插入图片描述
很多同学因为这步没设置好所以建好的File报错，之所以建两个Packag是因为我们的test中的爬取是调用第一个主程序包中的库来进行。

2.代码调用

主程序（库）代码如下：

"""
@author:
@project: crawler
@file: tao.py
@time: 2020/11/17 15:00
@desc:
"""
import os
import platform
import time
import requests
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def judge_platform():
    """
    判断操作系统

    :return: 返回driver
    """
    if "Windows" not in platform.architecture()[1]:
        chrome_options = Options()</

最低0.47元/天解锁文章

qq_287041604

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
淘宝爬虫心得

文章目录前言一、准备工作1.pycharm编译器（菜鸟编程网站有详细的安装编译器和配置环境的教程）二、使用步骤1.引入库2.读入数据总结前言本文主要介绍了淘宝爬虫中可能会遇到的问题。参考连接：淘宝爬虫提示：以下是本篇文章正文内容，下面案例可供参考一、准备工作1.pycharm编译器（菜鸟编程网站有详细的安装编译器和配置环境的教程）二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.py
复制链接

扫一扫