mac 上python简易爬虫

代码主要copy叶孤城大大。

http://www.imooc.com/wenda/detail/248578

1.三方库

安装 BeautifulSoup 很简单,下载 BeautifulSoup  源码。解压运行

python setup.py install 即可。(ps 若出现权限问题错误 sudo python setup.py install 

2. BeautifulSoup版本(4.0+以上from bs4 import BeautifulSoup)  python采用mac内置版本2.7

BeautifulSoup版本 低于4.0 采用 from BeautifulSoup import BeautifulSoup(html解析)


#!/usr/bin/python

#-*- coding: utf-8 -*-

#encoding=utf-8

import urllib2

import urllib

import os

from bs4 import BeautifulSoup

#导入库,Python代码与swift很相似,学过的同学比较快捷

#def 定义一个函数,ps python定义变量不需要使用js或swift的var

def getAllImageLink():

    i=1;

    #while循环

    while(i<10):

       #http://www.dbmeizi.com/category/11?p=0 小清新,可打开,该句获取html

       html = urllib2.urlopen('http://www.dbmeizi.com/category/11?p=%s'%(i-1)).read()

       i=i+1;

       #html = urllib2.urlopen('http://www.dbmeizi.com').read()

       soup = BeautifulSoup(html)

       #find li标签下class=span3

       liResult = soup.findAll('li',attrs={"class":"span3"})

    

       for li in liResult:

             imageEntityArray = li.findAll('img')

             #find img标签

             for image in imageEntityArray:

                  link = image.get('data-src')

                  imageName = image.get('data-id')

                  #下载路径,每个人路径不一样,建议修改,本人放在桌面上

                  filesavepath ='/Users/nothinglhw/Desktop/Mypic/%s.jpg' % imageName

                  #下载图片

                  urllib.urlretrieve(link,filesavepath)

                  print filesavepath

if __name__ == '__main__':

         getAllImageLink()




#ps:

在cmd 中直接运行.py文件,则__name__的值是'__main__';

而在import 一个.py文件后,__name__的值就不是'__main__'了;

从而用if __name__ == '__main__'来判断是否是在直接运行该.py文件




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值