Python爬虫学习教程：天猫商品数据爬虫，3面直接拿到offer

最新推荐文章于 2024-07-12 16:14:01 发布

m0_60575487

最新推荐文章于 2024-07-12 16:14:01 发布

阅读量1k

点赞数 9

分类专栏： 2024年程序员学习文章标签： python 爬虫学习

本文链接：https://blog.csdn.net/m0_60575487/article/details/137791338

版权

2024年程序员学习专栏收录该内容

249 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

pip install pyquery
登录微博，并通过微博绑定淘宝账号密码
在main中填写chromedriver的绝对路径
在main中填写微博账号密码

#改成你的chromedriver的完整路径地址

chromedriver_path = “/Users/bird/Desktop/chromedriver.exe”

#改成你的微博账号

weibo_username = “改成你的微博账号”

#改成你的微博密码

weibo_password = “改成你的微博密码”

效果演示图片

项目源码

-- coding: utf-8 --

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver import ActionChains

from pyquery import PyQuery as pq

from time import sleep

#定义一个taobao类

class taobao_infos:

#对象初始化

def init(self):

url = ‘https://login.taobao.com/member/login.jhtml’

self.url = url

options = webdriver.ChromeOptions()

options.add_experimental_option(“prefs”, {“profile.managed_default_content_settings.images”: 2}) # 不加载图片,加快访问速度

options.add_experimental_option(‘excludeSwitches’, [‘enable-automation’]) # 此步骤很重要，设置为开发者模式，防止被各大网站识别出来使用了Selenium

self.browser = webdriver.Chrome(executable_path=chromedriver_path, options=options)

self.wait = WebDriverWait(self.browser, 10) #超时时长为10s

#延时操作,并可选择是否弹出窗口提示

def sleep_and_alert(self,sec,message,is_alert):

for second in range(sec):

if(is_alert):

alert = “alert(”" + message + “:” + str(sec - second) + “秒”)"

self.browser.execute_script(alert)

al = self.browser.switch_to.alert

sleep(1)

al.accept()

else:

sleep(1)

#登录淘宝

def login(self):

打开网页

self.browser.get(self.url)

自适应等待，点击密码登录选项

self.browser.implicitly_wait(30) #智能等待，直到网页加载完毕，最长等待时间为30s

self.browser.find_element_by_xpath(‘//*[@class=“forget-pwd J_Quick2Static”]’).click()

自适应等待，点击微博登录宣传

self.browser.implicitly_wait(30)

self.browser.find_element_by_xpath(‘//*[@class=“weibo-login”]’).click()

自适应等待，输入微博账号

self.browser.implicitly_wait(30)

self.browser.find_element_by_name(‘username’).send_keys(weibo_username)

自适应等待，输入微博密码

self.browser.implicitly_wait(30)

self.browser.find_element_by_name(‘password’).send_keys(weibo_password)

自适应等待，点击确认登录按钮

self.browser.implicitly_wait(30)

self.browser.find_element_by_xpath(‘//*[@class=“btn_tip”]/a/span’).click()

直到获取到淘宝会员昵称才能确定是登录成功

taobao_name = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.site-nav-bd > ul.site-nav-bd-l > li#J_SiteNavLogin > div.site-nav-menu-hd > div.site-nav-user > a.site-nav-login-info-nick ')))

输出淘宝昵称

print(taobao_name.text)

获取天猫商品总共的页数

def search_toal_page(self):

等待本页面全部天猫商品数据加载完毕

good_total = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#J_ItemList > div.product > div.product-iWrap’)))

#获取天猫商品总共页数

number_total = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form’)))

page_total = number_total.text.replace(“共”,“”).replace(“页，到第页确定”,“”).replace(“，”,“”)

return page_total

翻页操作

def next_page(self, page_number):

等待该页面input输入框加载完毕

input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo’)))

等待该页面的确定按钮加载完毕

submit = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form > button.ui-btn-s’)))

清除里面的数字

input.clear()

重新输入数字

input.send_keys(page_number)

强制延迟1秒，防止被识别成机器人

sleep(1)

点击确定按钮

submit.click()

模拟向下滑动浏览

def swipe_down(self,second):

for i in range(int(second/0.1)):

js = “var q=document.documentElement.scrollTop=” + str(300+200*i)

self.browser.execute_script(js)

sleep(0.1)

js = “var q=document.documentElement.scrollTop=100000”

self.browser.execute_script(js)

sleep(0.2)

爬取天猫商品数据

def crawl_good_data(self):

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
ext_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA==,size_16,color_FFFFFF,t_70)

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）
[外链图片转存中…(img-II83RWTc-1713177913395)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

m0_60575487

关注

9
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习教程：天猫商品数据爬虫，3面直接拿到offer

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫

专栏目录