[Python爬虫]爬取贴吧图片

原创 2016年06月02日 00:23:13

[Python爬虫]爬取贴吧图片

代码有瑕疵就是必须在目的目录中创建文件夹,确认了文件夹创建之后再运行。

Python爬虫的使用其实就是熟悉运用urllib,urllib2,re模块。

首先是模拟浏览器的环境 ,通过url定位获取网页的源码,分析html源码找到自己要提取的信息的规律,最后通过re正则表达式匹配\查找获取相应的信息。


爬虫的简单程序:获取贴吧的图片并下载到本地保存

import urllib2
import urllib
import re
import os

class TiebaImg(object):

	def __init__(self):
		self.number = 0
		# os.mkdir(self.Path)
		self.Path = 'f:\Img\kenan_test1'
		self.siteUrl = 'http://tieba.baidu.com/p/4570934032?pn='
		self.Re = r'<img class=".*?" src="(.*?)".*?>'

	def getPattern(self,page):
		url = self.siteUrl + str(page)
		RE = self.Re
		pattern = re.compile(RE)
		response = urllib2.urlopen(url).read()
		items = re.findall(pattern,response)
		return items

	def getImg(self,num):
		Item = self.getPattern(num)
		
		for item in Item:
			splitPath = item.split('.')
			fTail = splitPath.pop()
			if len(fTail) > 3:
				fTail = "jpg"
			filename = self.Path + "\\"  + "Image" + str(self.number) + "." + fTail
			u = urllib2.urlopen(item)
			data = u.read()
			File = open(filename,'wb')
			File.write(data)
			self.number += 1
		File.close()


tieba = TiebaImg()
tieba.getImg(1)


版权声明:本文为博主原创文章,未经博主允许不得转载。

Python爬虫入门——爬取贴吧图片

最近忽然想听一首老歌,“I believe”  于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的《我的野蛮女友》电影主题曲的哪个版本,想起女神全智贤,心血来潮,于...

Python抓取图片(贴吧)

今天给大家写分享一个爬虫小程序,用来抓取贴吧的一些图片  picture.py。 步骤: 1、获取指定网页源代码,建议request一下。 2、匹配正则 3、利用urlretrieve下载 在这儿...
  • Topkipa
  • Topkipa
  • 2016年09月06日 10:03
  • 720

Python爬取贴吧多页图片

Python爬取贴吧图片都只能爬取第一页的,加了循环也不行,现在可以了。 #coding:utf-8 import urllib import urllib2 import re import os...

用Python 爬虫爬取贴吧图片

之前一直在看机器学习,遇到了一些需要爬取数据的内容,于是稍微看了看Python爬虫,在此适当做一个记录。我也没有深入研究爬虫,大部分均是参考了网上的资源。先推荐两个Python爬虫的教程,网址分别是h...

Python网络爬虫入门(一)——爬取百度贴吧图片

描述:用Python爬去百度贴吧图片并保存到本地。 本人刚学爬虫还不是很熟练,其中难点在于正则表达式的理解;#-*- coding:utf-8-*- import urllib import re ...
  • MTbaby
  • MTbaby
  • 2017年04月17日 12:43
  • 803

Python爬虫__爬取贴吧图片和文本

1. 爬取图片1.1 前言这是一个李清照吧http://tieba.baidu.com/p/3825973883 里面有楼主上传的书法作品,每一楼的格式大致是这样,文本加上书法图片: ...

Python爬虫实战一之爬取百度贴吧中图片

1、首先分析百度贴吧下的url与源码 例如:https://tieba.baidu.com/p/5185002863?pn=1 url:https://tieba.baidu....

python3 多页爬虫爬取百度贴吧帖子所有图片

逛博客,发现了python。说是人工智能开发的主要语言,所以就来了兴趣,打算抽空看看。网上找了教程觉得语法上,相较于.net和java反倒更简单点。基本语法看完,总要弄点东西吧...

python爬虫爬取各大直播平台的女主播图片

目标: 各大网络直播平台的妹纸照片~~~~(斗鱼,熊猫,虎牙,全民,战旗等) python爬虫入门级别!所需模块: re, urllib, os 均为python内置模块或许每...
  • wf134
  • wf134
  • 2017年11月20日 18:18
  • 2005

通过Python爬虫爬取知乎某个问题下的图片

该爬虫主要是通过requests来实现的,该模块完全可以很好的代替urllib和urllib2,而且功能更强大,详细可以看这里。同时也用到了pillow模块中的image对象,实现环境是Python2...
  • Enter_
  • Enter_
  • 2016年07月10日 21:36
  • 14489
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[Python爬虫]爬取贴吧图片
举报原因:
原因补充:

(最多只允许输入30个字)