Python爬虫学习教程：天猫商品数据爬虫

最新推荐文章于 2024-08-08 22:15:00 发布

m0_60666841

最新推荐文章于 2024-08-08 22:15:00 发布

阅读量2.6k

点赞数 32

分类专栏：程序员学习文章标签： python 爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60666841/article/details/136860691

版权

程序员学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

翻页操作

def next_page(self, page_number):

等待该页面input输入框加载完毕

input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo’)))

等待该页面的确定按钮加载完毕

submit = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form > button.ui-btn-s’)))

清除里面的数字

input.clear()

重新输入数字

input.send_keys(page_number)

强制延迟1秒，防止被识别成机器人

sleep(1)

点击确定按钮

submit.click()

模拟向下滑动浏览

def swipe_down(self,second):

for i in range(int(second/0.1)):

js = “var q=document.documentElement.scrollTop=” + str(300+200*i)

self.browser.execute_script(js)

sleep(0.1)

js = “var q=document.documentElement.scrollTop=100000”

self.browser.execute_script(js)

sleep(0.2)

爬取天猫商品数据

def crawl_good_data(self):

对天猫商品数据进行爬虫

self.browser.get(“https://list.tmall.com/search_product.htm?q=羽毛球”)

err1 = self.browser.find_element_by_xpath(“//*[@id=‘content’]/div/div[2]”).text

err1 = err1[:5]

if(err1 == “喵~没找到”):

print(“找不到您要的”)

return

try:

self.browser.find_element_by_xpath(“//*[@id=‘J_ComboRec’]/div[1]”)

err2 = self.browser.find_element_by_xpath(“//*[@id=‘J_ComboRec’]/div[1]”).text

#print(err2)

err2 = err2[:5]

if(err2 == “我们还为您”):

print(“您要查询的商品书目太少了”)

return

except:

print(“可以爬取这些信息”)

获取天猫商品总共的页数

page_total = self.search_toal_page()

print(“总共页数” + page_total)

遍历所有页数

for page in range(2,int(page_total)):

等待该页面全部商品数据加载完毕

good_total = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#J_ItemList > div.product > div.product-iWrap’)))

等待该页面input输入框加载完毕

input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo’)))

获取当前页

now_page = input.get_attribute(‘value’)

print(“当前页数” + now_page + “,总共页数” + page_total)

获取本页面源代码

html = self.browser.page_source

pq模块解析网页源代码

doc = pq(html)

存储天猫商品数据

good_items = doc(‘#J_ItemList .product’).items()

遍历该页的所有商品

for item in good_items:

good_title = item.find(‘.productTitle’).text().replace(‘\n’,“”).replace(‘\r’,“”)

good_status = item.find(‘.productStatus’).text().replace(" “,”“).replace(“笔”,”“).replace(‘\n’,”“).replace(‘\r’,”")

good_price = item.find(‘.productPrice’).text().replace(“¥”, “”).replace(" ", “”).replace(‘\n’, “”).replace(‘\r’, “”)

good_url = item.find(‘.productImg’).attr(‘href’)

print(good_title + " " + good_status + " " + good_price + " " + good_url + ‘\n’)

精髓之处，大部分人被检测为机器人就是因为进一步模拟人工操作

模拟人工向下浏览商品，即进行模拟下滑操作，防止被识别出是机器人

self.swipe_down(2)

翻页，下一页

self.next_page(page)

等待滑动验证码出现,超时时间为5秒，每0.5秒检查一次

大部分情况不会出现滑动验证码，所以如果有需要可以注释掉下面的代码

sleep(5)

WebDriverWait(self.browser, 5, 0.5).until(EC.presence_of_element_located((By.ID, “nc_1_n1z”))) #等待滑动拖动控件出现

try:

swipe_button = self.browser.find_element_by_id(‘nc_1_n1z’) #获取滑动拖动控件

#模拟拽托

action = ActionChains(self.browser) # 实例化一个action对象

action.click_and_hold(swipe_button).perform() # perform()用来执行ActionChains中存储的行为

action.reset_actions()

action.move_by_offset(580, 0).perform() # 移动滑块

except Exception as e:

print ('get button failed: ', e)

if name == “main”:

使用之前请先查看当前目录下的使用说明文件README.MD

使用之前请先查看当前目录下的使用说明文件README.MD

使用之前请先查看当前目录下的使用说明文件README.MD

chromedriver_path = “/Users/bird/Desktop/chromedriver.exe” #改成你的chromedriver的完整路径地址

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）

效果低效又漫长，而且极易碰到天花板技术停滞不前！**

因此收集整理了一份《2024年Python爬虫全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频

如果你觉得这些内容对你有帮助，可以添加下面V无偿领取！（备注：python）
[外链图片转存中…(img-oQAKuF3b-1710877995360)]

关注

32
点赞
踩
46

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄3年

609: 原创

-: 周排名

-: 总排名

43万+: 访问

: 等级

1万+: 积分

6077: 粉丝

8930: 获赞

15: 评论

9105: 收藏

私信

关注

热门文章

分类专栏

最新评论

【专题】python自定义封装logging_python loggeer自定义(1)
北风之神c: 总结的很全面，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh_CN/latest 使用原生 loggng封装，兼容性和替换性100%,大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、兼容 loguru模式。相比 loguru 有10胜。 pip install nb_log 。
【看了绝对不后悔系列，软件实施以及运维】Windows下运维常用的小技巧(1)
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Python每日一练——列表，元组和字典第十三关：字典键值支持的数据类型
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是如一盏明灯，指引我前进，每一篇博文都是一次心灵的提升，你的分享总是如此珍贵，你的博文总是让我拓展了视野，增长了见识，感谢你一直以来的无私奉献。期待更多知识的分享。非常感激你的专业知识传授。
Spark SQL简介及视频教程(2)
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
完全编程0基础，转行学Python，可以学会吗？_真的有人可以一个月学会编程吗(1)
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。