爬虫教程 python3_python3 爬虫教程

完整pytyon的代码如下:

#coding=utf-8

#urllib模块提供了读取Web页面数据的接口

import urllib

#re模块主要包含了正则表达式

import re

import random

import os

#定义一个getHtml()函数

def getHtml(url):

page = urllib.urlopen(url) #urllib.urlopen()方法用于打开一个URL地址

html = page.read() #read()方法用于读取URL上的数据

return html

#搜索图片文件

def getImgList(html):

print html

#http://wx2.sinaimg.cn/mw600/006GlaT2ly1fdaip4dnmpj30hq0qo0vl.jpg

reg = r'http://.+?\.jpg'

imgre = re.compile(reg)

imglist = re.findall(imgre,html)

print "imglist:%s" %imglist

return imglist

#将文件列表写入磁盘

def writeImgList(imglist,start):

x = start

for imgurl in imglist:

print "begin write the image %s" %imgurl

fileName = 'e:\jiandan\%s.jpg' %random.randint(100000, 9999999)

if os.path.exists(fileName):

fileName = 'e:\jiandan\%s.jpg' %random.randint(100000, 9999999)

#urllib.urlretrieve(imgurl,fileName)

urllib.urlretrieve(imgurl,'%s' %fileName)

x+=1

#url为搜索图片文件的网页地址

url = "http://www.moko.cc/channels/post/23/1.html"

imgList = getImgList(getHtml(url))

print imgList

writeImgList(imgList,0)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值