Python爬虫学习教程：天猫商品数据爬虫

最新推荐文章于 2024-07-26 21:12:27 发布

Python新手学习之家

最新推荐文章于 2024-07-26 21:12:27 发布

阅读量2.5k

点赞数 3

分类专栏： python爬虫文章标签： Python爬虫 Python爬虫教程 Python

本文链接：https://blog.csdn.net/qq_45327272/article/details/103709823

版权

这篇教程详细介绍了如何使用Python爬虫从天猫网站抓取商品数据。首先，你需要获取chrome浏览器对应的chromedriver驱动，并安装selenium和pyquery库。接着，通过微博账号登录并绑定淘宝，以实现爬虫的登录操作。提供了代码示例和效果演示，但要注意网站可能的更新导致的爬虫失效。对于Python爬虫初学者，建议明确学习路线和未来发展方向。

摘要由CSDN通过智能技术生成

天猫商品数据爬虫使用教程

下载chrome浏览器
查看chrome浏览器的版本号，下载对应版本号的chromedriver驱动
pip安装下列包
pip install selenium
pip install pyquery
登录微博，并通过微博绑定淘宝账号密码
在main中填写chromedriver的绝对路径
在main中填写微博账号密码

#改成你的chromedriver的完整路径地址
    chromedriver_path = "/Users/bird/Desktop/chromedriver.exe" 
    #改成你的微博账号
    weibo_username = "改成你的微博账号"
    #改成你的微博密码
    weibo_password = "改成你的微博密码"

效果演示图片

项目源码

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver import ActionChains
from pyquery import PyQuery as pq
from time import sleep


#定义一个taobao类
class taobao_infos:

    #对象初始化
    def __init__(self):
        url = 'https://login.taobao.com/member/login.jhtml'
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加载图片,加快访问速度
        options.add_experimental_option('excludeSwitches', ['enable-automation']) # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium

        self.browser = webdriver.Chrome(executable_path=chromedriver_path, options=options)
        self.wait = WebDriverWait(self.browser, 10) #超时时长为10s


    #延时操作,并可选择是否弹出窗口提示
    def sleep_and_alert(self,sec,message,is_alert):

        fo