关闭

python3.5.2爬虫

标签: python爬虫py2.5.2
480人阅读 评论(0) 收藏 举报
分类:

话不多说,都在代码里

#下载斗鱼颜值栏目主播照片

#author:ives

#date:2016-8-28 21:58

#e-mail:renhanlinbsl@163.com

 

import urllib.request

import string

import re

import json

import sys,os

 

url="http://capi.douyucdn.cn/api/v1/getColumnRoom/8?offset="

urlAfter="&limit=30&client_sys=android"

offset=0

#下载的张数

count=1

 

#获取当前脚本路径

def cur_file_dir():

path=sys.path[0]

if os.path.isdir(path):

return path

elif os.path.isfile(path):

return os.path.dirname(path)

 

#获取网页json

def getHtml(url):

page=urllib.request.urlopen(url)

html=page.read()

#解决编码问题

return html.decode("UTF-8")

 

#下载图片

def downLoadImg(url):

#截取文件名

file=open(downLoadUrl+url.split("/")[-1],'wb')

img=urllib.request.urlopen(url)

buf=img.read()

file.write(buf)

return

 

#动态生成路径

def getLink(url):

response=getHtml(url)

#处理中文编码问题

response = response.encode('latin-1').decode('unicode_escape')

jsonText=json.loads(response)

#获取所有的数据

test=jsonText["data"]

for i in test:

#获取图片路径

src=i["vertical_src"]

downLoadImg(src)

global count

print("已下载"+str(count)+"张"+src+"-*-"+str(offset))

count=count+1

return

######################################################

 

#获取下载目录

downLoadUrl=cur_file_dir()+"/"

 

#动态修改offset获取更多图片

while(True):

finalUrl=url+str(offset)+urlAfter

getLink(url)

offset=offset+20

 

 

 

 

联系我:renhanlinbsl@163.com

2016-8-30

21:49

0
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

windows 上面python3.5.2安装一些模块。

安装环境安装numpy模块建议官网下载安装http://www.lfd.uci.edu/~gohlke/pythonlibs/(这个网址重要,包含很多需要的python库文件,),numpy是一个基础模块,很多模块依赖这个模块。下载文件后本地安装命令: pip install numpy-1.11....
  • JQ_AK47
  • JQ_AK47
  • 2017-01-17 14:50
  • 1433

python3.3 爬虫小例子

本文仿照大神:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 的博客转化成python3.3 第一个爬虫小例子: import urllib.request as request import urllib.pars...
  • oMuYeJingFeng1
  • oMuYeJingFeng1
  • 2014-04-20 14:41
  • 35368

Python写一个简单的爬虫样例(不超过50行代码)

###写在题外的话 爬虫,我还是大三的时候,第一次听说,当时我的学姐给我找的一个勤工俭学的项目,要求是在微博上爬出感兴趣的信息,结果很遗憾,第一次邂逅只是擦肩而过。然后,时间来到4年后的研二,在做信息检索作业时,老师让选择一个自己感兴趣的主题,于是,第二次不期而遇。这次相遇,我本以为自己不会轻易放手...
  • wsbxzz1
  • wsbxzz1
  • 2017-06-10 10:55
  • 2958

python爬虫实例项目大全

WechatSogou [1]- 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。 DouBanSpider [2]- 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书,按评分排名依次...
  • baidu_21833433
  • baidu_21833433
  • 2017-04-21 14:59
  • 11175

Python3爬虫 处理分页

import logging import random import threading import urllib.parse import urllib.parse import urllib.request from queue import Queue import pymysql fro...
  • u013491262
  • u013491262
  • 2017-07-26 17:13
  • 305

python2.7爬虫学习笔记(一)---Urllib库的使用

扒一个网页 构造Request post和get数据传送 设置headers Proxy(代理)的设置 Timeout设置 URLError异常处理 cookie的使用
  • SirM2z
  • SirM2z
  • 2015-06-03 20:14
  • 6980

Python网络爬虫实战项目代码大全

WechatSogou [1]-微信公众号爬虫 基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典。  DouBanSpider [2]-豆瓣读书爬虫 可以爬下豆瓣读书标签下的所有图书,按...
  • fanpeihua123
  • fanpeihua123
  • 2016-12-12 14:16
  • 12089

Python3网络爬虫(一):利用urllib进行简单的网页抓取

运行平台:Windows10 Python版本:Python3.x IDE:Sublime text3
  • c406495762
  • c406495762
  • 2017-02-28 23:32
  • 26801

python 网络爬虫入门(一)———第一个python爬虫实例

最近两天学习了一下python,并自己写了一个网络爬虫的例子。 python版本: 3.5 IDE : pycharm 5.0.4 要用到的包可以用pycharm下载: File->Default Settings->Default Project->Project Int...
  • Bo_wen_
  • Bo_wen_
  • 2016-03-13 15:58
  • 75052

Python爬虫(urllib2+bs4)+分析找出谁是水贴王(1)--数据收集

要分析谁是水贴王,首先要收集发帖和发帖者的数据。 这里测试百度贴吧的李毅吧的前100页:#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import csv import re import sys reload(sys) sy...
  • lw_zhaoritian
  • lw_zhaoritian
  • 2016-07-13 20:17
  • 823
    个人资料
    • 访问:11761次
    • 积分:217
    • 等级:
    • 排名:千里之外
    • 原创:44篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章分类
    文章存档