Python爬虫学习教程:天猫商品数据爬虫

这篇教程详细介绍了如何使用Python爬虫从天猫网站抓取商品数据。首先,你需要获取chrome浏览器对应的chromedriver驱动,并安装selenium和pyquery库。接着,通过微博账号登录并绑定淘宝,以实现爬虫的登录操作。提供了代码示例和效果演示,但要注意网站可能的更新导致的爬虫失效。对于Python爬虫初学者,建议明确学习路线和未来发展方向。
摘要由CSDN通过智能技术生成

天猫商品数据爬虫使用教程

  1. 下载chrome浏览器
  2. 查看chrome浏览器的版本号,下载对应版本号的chromedriver驱动
  3. pip安装下列包
  4. pip install selenium
  5. pip install pyquery
  6. 登录微博,并通过微博绑定淘宝账号密码
  7. 在main中填写chromedriver的绝对路径
  8. 在main中填写微博账号密码
#改成你的chromedriver的完整路径地址
    chromedriver_path = "/Users/bird/Desktop/chromedriver.exe" 
    #改成你的微博账号
    weibo_username = "改成你的微博账号"
    #改成你的微博密码
    weibo_password = "改成你的微博密码"

效果演示图片

项目源码

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver import ActionChains
from pyquery import PyQuery as pq
from time import sleep


#定义一个taobao类
class taobao_infos:

    #对象初始化
    def __init__(self):
        url = 'https://login.taobao.com/member/login.jhtml'
        self.url = url

        options = webdriver.ChromeOptions()
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) # 不加载图片,加快访问速度
        options.add_experimental_option('excludeSwitches', ['enable-automation']) # 此步骤很重要,设置为开发者模式,防止被各大网站识别出来使用了Selenium

        self.browser = webdriver.Chrome(executable_path=chromedriver_path, options=options)
        self.wait = WebDriverWait(self.browser, 10) #超时时长为10s


    #延时操作,并可选择是否弹出窗口提示
    def sleep_and_alert(self,sec,message,is_alert):

        fo
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值