【python 淘宝爬虫】淘宝信誉分抓取

一、需求分析
输入旺旺号,获取淘宝卖家的信用分

这里写图片描述

二、思路
淘宝需要模拟登陆,我们这里抓不到,因此为了绕过登陆,发现了淘一兔,我们可以通过这里,得到淘宝卖家的信用分,结果是一样的。
http://www.taoyizhu.com/

这里写图片描述

输入旺旺号,需要点击查询,等待几秒,得到查询结果,这里我们用selienum 来做

三、实现源代码(抓取不能太快,否则抓不到)

# encoding: utf-8

from selenium import webdriver
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import pandas as pd
import time
import re
time1=time.time()

driver=webdriver.PhantomJS(executable_path='D:\\Program Files\\Python27\\Scripts\\phantomjs.exe')
driver.set_window_size(800, 600)

########################读取数据############################
data1=pd.read_excel(r'C:/taobao/taobao1.xlsx')
print data1


#######################查询店铺信誉分#############################
seller_credit=[]
for i in range(0,len(data1)):
    key=str(data1.iloc[i,0])
    key1=key.decode("utf-8")
    driver.get("http://www.taoyizhu.com/")
    time.sleep(5)
    driver.find_element_by_id("txt_name").clear()
    driver.find_element_by_id("txt_name").send_keys(key1)
    driver.find_element_by_id('search_btn').click()
    time.sleep(3)
    html2 = driver.page_source
    seller_credit1 = re.findall('<span id="spanUserSellerCount">(.*?)</span>', html2, re.S)
    for each in seller_credit1:
        print key,each
        seller_credit.append(each)


#######################################增加店铺信誉分这一列#############################
data1['店铺信誉分']=seller_credit

print data1


# 写出excel
writer = pd.ExcelWriter(r'C:\\taobao\\taobao1_all.xlsx', engine='xlsxwriter', options={'strings_to_urls': False})
data1.to_excel(writer, index=False)
writer.close()

time2 = time.time()
print u'ok,爬虫结束!'
print u'总共耗时:' + str(time2 - time1) + 's'

这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东华果汁哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值