python 爬虫入门

第一次接触python 爬虫代码,这里主要是要注意编码的问题,从网上下载到的html数据是字节流,写到文件里面也需要用字节流,然后从文件里面读取后在匹配图片文件jpg的字符串需要解码为utf-8格式。 remodel.findall(htmlCode.decode(‘utf-8’)) 这行代码的htmlCode可以转换为filedata 是一样的效果

import urllib.request
import re

def getData():
page = urllib.request.urlopen(‘https://www.baidu.com/sf/vsearch?pd=video&tn=vsearch&lid=e08c0ba400008d63&ie=utf-8&rsv_pq=e08c0ba400008d63&wd=豆瓣&rsv_spt=5&rsv_t=455962lpqHmimoD7wauMCXYkgyRSTOGdua%2BG%2FgFaRImWqVQpZJkm%2BS64ZN7MRkZ%2F%2Fe64Cw&rsv_bp=1&f=8’)
htmlCode = page.read()
return htmlCode

htmlCode = getData()
print(htmlCode)
file = open(‘D:/urltest3.txt’,‘wb’)
file.write(htmlCode)
file.flush()
file.close()

file = open(‘D:/urltest3.txt’,‘rb’)
filedata = file.read()

restr = ‘src=".*?.jpg"’
remodel = re.compile(restr)
imglist = remodel.findall(htmlCode.decode(‘utf-8’))

print(len(imglist))

for img in imglist:
print(img)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值