【Python爬虫教程】天猫商品数据爬取(演示视频+源码分享+代码解析)

一、演示视频

演示视频:

【Python爬虫】手把手带你爬虫爬取天猫商品数据,超详细教程


高清教程视频传送门: 【Python爬虫】手把手带你爬虫爬取天猫商品数据

温馨提示:篇幅有限,完整代码已打包文件夹,获取方式在:
在这里插入图片描述

二、爬虫代码解析

翻页操作

def next_page(self, page_number):

等待该页面input输入框加载完毕

input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo’)))

等待该页面的确定按钮加载完毕

submit = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form > button.ui-btn-s’)))

清除里面的数字

input.clear()

重新输入数字

input.send_keys(page_number)

强制延迟1秒,防止被识别成机器人

sleep(1)

点击确定按钮

submit.click()

模拟向下滑动浏览

def swipe_down(self,second):

for i in range(int(second/0.1)):

js = “var q=document.documentElement.scrollTop=” + str(300+200*i)

self.browser.execute_script(js)

sleep(0.1)

js = “var q=document.documentElement.scrollTop=100000”

self.browser.execute_script(js)

sleep(0.2)

爬取天猫商品数据

def crawl_good_data(self):

对天猫商品数据进行爬虫

self.browser.get(“https://list.tmall.com/search_product.htm?q=羽毛球”)

err1 = self.browser.find_element_by_xpath(“//*[@id=‘content’]/div/div[2]”).text

err1 = err1[:5]

if(err1 == “喵~没找到”):

print(“找不到您要的”)

return

try:

self.browser.find_element_by_xpath(“//*[@id=‘J_ComboRec’]/div[1]”)

err2 = self.browser.find_element_by_xpath(“//*[@id=‘J_ComboRec’]/div[1]”).text

#print(err2)

err2 = err2[:5]

if(err2 == “我们还为您”):

print(“您要查询的商品书目太少了”)

return

except:

print(“可以爬取这些信息”)

获取天猫商品总共的页数

page_total = self.search_toal_page()

print(“总共页数” + page_total)

遍历所有页数

for page in range(2,int(page_total)):

等待该页面全部商品数据加载完毕

good_total = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘#J_ItemList > div.product > div.product-iWrap’)))

等待该页面input输入框加载完毕

input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ‘.ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo’)))

获取当前页

now_page = input.get_attribute(‘value’)

print(“当前页数” + now_page + “,总共页数” + page_total)

获取本页面源代码

html = self.browser.page_source

pq模块解析网页源代码

doc = pq(html)

存储天猫商品数据

good_items = doc(‘#J_ItemList .product’).items()

遍历该页的所有商品

for item in good_items:

good_title = item.find(‘.productTitle’).text().replace(‘\n’,“”).replace(‘\r’,“”)

good_status = item.find(‘.productStatus’).text().replace(" “,”“).replace(“笔”,”“).replace(‘\n’,”“).replace(‘\r’,”")

good_price = item.find(‘.productPrice’).text().replace(“¥”, “”).replace(" ", “”).replace(‘\n’, “”).replace(‘\r’, “”)

good_url = item.find(‘.productImg’).attr(‘href’)

print(good_title + " " + good_status + " " + good_price + " " + good_url + ‘\n’)

精髓之处,大部分人被检测为机器人就是因为进一步模拟人工操作

模拟人工向下浏览商品,即进行模拟下滑操作,防止被识别出是机器人

self.swipe_down(2)

翻页,下一页

self.next_page(page)

等待滑动验证码出现,超时时间为5秒,每0.5秒检查一次

大部分情况不会出现滑动验证码,所以如果有需要可以注释掉下面的代码

sleep(5)

WebDriverWait(self.browser, 5, 0.5).until(EC.presence_of_element_located((By.ID, “nc_1_n1z”))) #等待滑动拖动控件出现

try:

swipe_button = self.browser.find_element_by_id(‘nc_1_n1z’) #获取滑动拖动控件

#模拟拽托

action = ActionChains(self.browser) # 实例化一个action对象

action.click_and_hold(swipe_button).perform() # perform()用来执行ActionChains中存储的行为

action.reset_actions()

action.move_by_offset(580, 0).perform() # 移动滑块

except Exception as e:

print ('get button failed: ', e)

if name == “main”:

三、获取完整源码

温馨提示:篇幅有限,完整代码已打包文件夹,获取方式在:
在这里插入图片描述

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>