Python 3.0最简单的爬虫

原创 2016年05月31日 17:01:57

做个小项目练练手,比较有动力继续下去,这边参考最简单的爬虫程序自己抄了一下。但是因为3.0的关系,无法直接使用,根据2.0版本的代码进行修改后成功了。

这里写图片描述

代码如下:

# -*- coding: utf-8 -*-
# 网上抄来的最简单的爬虫,用于批量下载图片

import urllib.request
import re

#该函数用于获取html内容
#使用到urlopen的函数
def getHtml(url):
    page = urllib.request.urlopen(url)
    #3.0直接使用read()函数会出现报错,提示是编码有问题。在后面加上编码就ok了。
    html = page.read().decode("utf-8")
    return html

def getImg(html):
    #reg为正则替换,这边是根据贴吧的帖子的图片在html中的状态拼的,只适用于贴吧帖子下图
    #正则的详细教程见:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
    reg = r'src="(.+?\.jpg)" pic_ext'
    #compile比较简单的解释是制作一个漏斗,规则如reg,只有符合的才能够通过。
    imgre = re.compile(reg)
    imgList = re.findall(imgre, html)
    x = 0
    for imgurl in imgList:
        #print ("for test %s" % x) 查看是否走到循环用的print
        #urlretrieve() 方法直接将远程数据下载到本地
        urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
        x += 1

#html变量定义一个需要读取的网址,这边选择的是某个贴吧的帖子。
html = getHtml("http://tieba.baidu.com/p/3115557410")
#执行操作
getImg(html)

print("all over!")
版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

用python写一个简单的爬虫功能

iOS开发如果之前没接触过除了c和c++(c++太难了,不花个十来年基本不可能精通)的语言,第二门语言最好的选择就是python.原因就是1.语法简单2.库太多,随便想要什么功能的库都找得到,简直编程...

Python实现简单爬虫

简单爬虫构架 时序图 Url管理器 管理待抓取url集合和已抓取Url集合 通过两个列表(已抓取url列表,未抓取url的列表)防止重复抓取、防止循环抓取 网页下载器 将互联网上Url对应的网页...
  • zxc123e
  • zxc123e
  • 2016年04月29日 17:27
  • 2566

python爬虫简单总结

一、模拟浏览器获取整个页面数据 (1)代码 import urllib def Gethtml(url): page=urllib.urlopen(url) html=pa...

Python与简单网络爬虫的编写

转自:http://xiaoxia.org/2012/11/02/python-cralwer/ 电影来了这个电影资源搜索网站火起来了,曾有一段时间因为太多人访问我的博客,访问量高于平常十多倍,...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

python3.0与python2.x的区别

1.性能Py3.0运行pystone benchmark的速度比Py2.5慢30%。Guido认为Py3.0有极大的优化空间,在字符串和整形操作上可以取得很好的优化结果。2.编码Py3.0源码文件默认...

Python3.0和以前版本的区别

Python3 爬虫(一)-- 简单网页抓取

序 一直想好好学习一下Python爬虫,之前断断续续的把Python基础学了一下,悲剧的是学的没有忘的快。只能再次拿出来滤了一遍,趁热打铁,借鉴众多大神的爬虫案例,加入Python网络爬虫的学习大军~...
  • fly_yr
  • fly_yr
  • 2016年05月28日 16:28
  • 25012

python3.3 爬虫小例子

本文仿照大神:http://blog.csdn.net/pleasecallmewhy/article/details/8927832 的博客转化成python3.3 第一个爬虫小例子: import...

第一个Python3.0 爬虫程序, 爬取百度贴吧图片

第一个Python3.0 爬虫程序, 爬取百度贴吧图片 基于python 3.0  #print("hello222") # coding= utf-8 import urllib.req...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python 3.0最简单的爬虫
举报原因:
原因补充:

(最多只允许输入30个字)