Python爬虫实战之抓取淘宝MM照片(四)

最后添加上 标题切换、本地目录创建、日志记录等,完善了整体代码。

过程中遇到了一个自己坑了自己的地方:中文乱码问题(据说python3解决了)!

一定要注意:

  1. python代码文件开头要加上 : # -- coding: utf-8 --
  2. 带中文的字符串前一定要加上 u,比如 (u”hi,你好”)
  3. 还有一点,我试过不是必需的。参见 http://blog.csdn.net/isfirst/article/details/52787341



淘女郎页面有分几个类别:
这里写图片描述

定位方法之前已经讲过,对应获取的代码:

# 获取所有标题
selections = driver.find_elements_by_xpath('//div[@class="listing_tab"]/li')

# 测试代码
for selection in selections:
    print selection.text
    pages = int(driver.find_element_by_xpath('//div[@class="paginations"]/span[@class="skip-wrap"]/em').text)
    print 'Total pages: %d' % pages
    selection.click()
    time.sleep(2)

完整代码运行后,本地会创建对应的文件夹(里面就是下载的图片):
这里写图片描述

完整代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2017-06-18 22:21:15
# @Author  : kk (zwk.patrick@foxmail.com)
# @Link    : blog.csdn.net/PatrickZheng
# @Version : $Id$


from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from bs4 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值