python3.5.2爬虫

话不多说,都在代码里

#下载斗鱼颜值栏目主播照片

#author:ives

#date:2016-8-28 21:58

#e-mail:renhanlinbsl@163.com

 

import urllib.request

import string

import re

import json

import sys,os

 

url="http://capi.douyucdn.cn/api/v1/getColumnRoom/8?offset="

urlAfter="&limit=30&client_sys=android"

offset=0

#下载的张数

count=1

 

#获取当前脚本路径

def cur_file_dir():

path=sys.path[0]

if os.path.isdir(path):

return path

elif os.path.isfile(path):

return os.path.dirname(path)

 

#获取网页json

def getHtml(url):

page=urllib.request.urlopen(url)

html=page.read()

#解决编码问题

return html.decode("UTF-8")

 

#下载图片

def downLoadImg(url):

#截取文件名

file=open(downLoadUrl+url.split("/")[-1],'wb')

img=urllib.request.urlopen(url)

buf=img.read()

file.write(buf)

return

 

#动态生成路径

def getLink(url):

response=getHtml(url)

#处理中文编码问题

response = response.encode('latin-1').decode('unicode_escape')

jsonText=json.loads(response)

#获取所有的数据

test=jsonText["data"]

for i in test:

#获取图片路径

src=i["vertical_src"]

downLoadImg(src)

global count

print("已下载"+str(count)+"张"+src+"-*-"+str(offset))

count=count+1

return

######################################################

 

#获取下载目录

downLoadUrl=cur_file_dir()+"/"

 

#动态修改offset获取更多图片

while(True):

finalUrl=url+str(offset)+urlAfter

getLink(url)

offset=offset+20

 

 

 

 

联系我:renhanlinbsl@163.com

2016-8-30

21:49

阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/renhanlinbsl/article/details/52373434
文章标签: python 爬虫 py2.5.2
个人分类: py
想对作者说点什么? 我来说一句

python-3.5.2-amd64

2016年06月29日 27.79MB 下载

python3.5.2 linux安装包

2016年08月16日 14.52MB 下载

没有更多推荐了,返回首页

不良信息举报

python3.5.2爬虫

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭