Python 3.0最简单的爬虫

原创 2016年05月31日 17:01:57

做个小项目练练手,比较有动力继续下去,这边参考最简单的爬虫程序自己抄了一下。但是因为3.0的关系,无法直接使用,根据2.0版本的代码进行修改后成功了。

这里写图片描述

代码如下:

# -*- coding: utf-8 -*-
# 网上抄来的最简单的爬虫,用于批量下载图片

import urllib.request
import re

#该函数用于获取html内容
#使用到urlopen的函数
def getHtml(url):
    page = urllib.request.urlopen(url)
    #3.0直接使用read()函数会出现报错,提示是编码有问题。在后面加上编码就ok了。
    html = page.read().decode("utf-8")
    return html

def getImg(html):
    #reg为正则替换,这边是根据贴吧的帖子的图片在html中的状态拼的,只适用于贴吧帖子下图
    #正则的详细教程见:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
    reg = r'src="(.+?\.jpg)" pic_ext'
    #compile比较简单的解释是制作一个漏斗,规则如reg,只有符合的才能够通过。
    imgre = re.compile(reg)
    imgList = re.findall(imgre, html)
    x = 0
    for imgurl in imgList:
        #print ("for test %s" % x) 查看是否走到循环用的print
        #urlretrieve() 方法直接将远程数据下载到本地
        urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
        x += 1

#html变量定义一个需要读取的网址,这边选择的是某个贴吧的帖子。
html = getHtml("http://tieba.baidu.com/p/3115557410")
#执行操作
getImg(html)

print("all over!")
版权声明:本文为博主原创文章,未经博主允许不得转载。

Python3 爬虫(一)-- 简单网页抓取

序 一直想好好学习一下Python爬虫,之前断断续续的把Python基础学了一下,悲剧的是学的没有忘的快。只能再次拿出来滤了一遍,趁热打铁,借鉴众多大神的爬虫案例,加入Python网络爬虫的学习大军~...
  • fly_yr
  • fly_yr
  • 2016年05月28日 16:28
  • 34618

第一个Python3.0 爬虫程序, 爬取百度贴吧图片

第一个Python3.0 爬虫程序, 爬取百度贴吧图片 基于python 3.0  #print("hello222") # coding= utf-8 import urllib.req...
  • wangming520liwei
  • wangming520liwei
  • 2016年12月21日 16:34
  • 515

python3.0爬虫抓取北京天气json

  • 2017年04月28日 18:03
  • 487B
  • 下载

Python 3.x爬虫技巧总结

最近想下载一些陌声人广播,在回家的火车上听,但是链接太多,如果要一个个去点就太浪费时间了,所以就想写一个爬虫自动下载。 用python爬虫抓站的一些技巧总结这篇文章对python爬虫技巧总结得很好,但...
  • wangtaoking1
  • wangtaoking1
  • 2014年01月15日 13:18
  • 18932

python3.0 网络爬虫 5

urllib的使用细节 1.Proxy 的设置 urllib 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。 如果想在程序中明确控制 Proxy 而不受环境变量的影响...
  • h316891725
  • h316891725
  • 2017年01月11日 16:26
  • 679

python3 爬虫(爬取网页、图片基础)

a
  • Ben_Ben_Niao
  • Ben_Ben_Niao
  • 2014年11月01日 10:02
  • 8519

python3.3 爬虫小例子

本文仿照大神:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 的博客转化成python3.3 第一个爬虫小例子: import...
  • oMuYeJingFeng1
  • oMuYeJingFeng1
  • 2014年04月20日 14:41
  • 35076

Python3写简单爬虫

最近开始研究python爬虫的抓取技术,发现网上很少能找到比较入门的简单Python3爬虫,正好自己在学,根据学习心得写了个爬取百度贴吧图片并保存在本地的简单小爬虫记录一下学习进度。import re...
  • xiaodongxiexie
  • xiaodongxiexie
  • 2016年05月16日 22:22
  • 4365

Python3.0 如何抓取网页

用Python来抓取网页是很容易的,前面也写过很多类似的内容,但在Python3.0中,内容多多少少有些不同,下面进行一下介绍.简单的抓取网页:import urllib.requesturl="ht...
  • jj_liuxin
  • jj_liuxin
  • 2009年02月19日 20:16
  • 12538

python3.0--安装包

  • 2009年03月14日 21:08
  • 12.36MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python 3.0最简单的爬虫
举报原因:
原因补充:

(最多只允许输入30个字)