Python3爬虫入门第一课

在印象中Python就是用来抓数据的,这次用的Python3.7,发现和以前的2.x的版本语法差别还是很大的,因为没有进行版本兼容。

# coding:utf-8
import urllib.request 
import re

def get_html(url):
	page = urllib.request.urlopen(url)
	html = page.read() #注意read和write方法都是获取到字节码的
	return html
	
def get_image(htmlcode):
	reg = r'src="(.+?\.jpg)" width' #正则表达式 惰性匹配是从左侧第一个字符开始向右匹配
	reg_img = re.compile(reg) #编译
	imglist = reg_img.findall(htmlcode.decode('utf-8'))
	x = 0
	for img in imglist:
		urllib.request.urlretrieve(img, 'C:\\Users\\10129\\Desktop\\python\\img\\%s.jpg' %x)
		print(img)
		x += 1	
	
#写到txt里面去
def write2txt(htmlcode):
	pageFile = open("C:\\Users\\10129\\Desktop\\python\\pageCode.txt","wb+")
	pageFile.write(htmlcode)
	pageFile.close()

print ("--------网页图片抓取---------")
print ("请输入url:"),
url = input()
if url:
	pass  # 不做任何事情,用作占位符
else:
	print ("-----没有地址使用默认地址-------")
	url = 'http://tieba.baidu.com/p/1753935195'
htmlcode = get_html(url)
write2txt(htmlcode)
get_image(htmlcode)
print("FINISH!!!")


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值