python 爬虫入门

摸鱼RPA

于 2019-08-13 11:27:51 发布

阅读量177

点赞数

分类专栏：人工智能文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovezcyzmd_csdn/article/details/99415397

版权

人工智能专栏收录该内容

10 篇文章

订阅专栏

第一次接触python 爬虫代码，这里主要是要注意编码的问题，从网上下载到的html数据是字节流，写到文件里面也需要用字节流，然后从文件里面读取后在匹配图片文件jpg的字符串需要解码为utf-8格式。 remodel.findall(htmlCode.decode(‘utf-8’)) 这行代码的htmlCode可以转换为filedata 是一样的效果

import urllib.request
import re

def getData():
page = urllib.request.urlopen(‘https://www.baidu.com/sf/vsearch?pd=video&tn=vsearch&lid=e08c0ba400008d63&ie=utf-8&rsv_pq=e08c0ba400008d63&wd=豆瓣&rsv_spt=5&rsv_t=455962lpqHmimoD7wauMCXYkgyRSTOGdua%2BG%2FgFaRImWqVQpZJkm%2BS64ZN7MRkZ%2F%2Fe64Cw&rsv_bp=1&f=8’)
htmlCode = page.read()
return htmlCode

htmlCode = getData()
print(htmlCode)
file = open(‘D:/urltest3.txt’,‘wb’)
file.write(htmlCode)
file.flush()
file.close()

file = open(‘D:/urltest3.txt’,‘rb’)
filedata = file.read()

restr = ‘src=".*?.jpg"’
remodel = re.compile(restr)
imglist = remodel.findall(htmlCode.decode(‘utf-8’))

print(len(imglist))

for img in imglist:
print(img)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。