python wget_python wget下载文件处理的一些问题



wget的安装 由于尝试pip安装一直失败,下载了wget3.2的数据包。 解压后运行python setup.py install即可完成安装。

基本使用的下载方法 import wget wget.download(downloadURL,filepathandname)

关于下载链接地址的获取 目前使用的方法:利用urllib得到网页数据,然后规则匹配得到相应的链接。 利用urllib获取(是否有更好的方法,BeautifulSoup?):

import urllib

from urllib import request

import re

pageRequest = request.urlopen(driver.current_url)

pageRead = pageRequest.read().decode('utf-8')

#为什么需要decode?

#在python3.0中 pageRequest.read()返回字节型数据,而re模块需要字符串

#系统提示错误can't use a string pattern on a bytes-like object

for eachline in pageRead.split('\n'):

webDownloadURL = re.findall('src="(.+)"',eachline)

if(len(webDownloadURL)>0) and re.search('iframe',eachline):

wgetURL = webDownloadURL[0]

print('%s'%wgetURL)

其他下载文件的方法

#1、文件存储形式

filedownload=urllib2.urlopen(url)

urldata=filedownload.read()

fwrite=open(path,'wb')

fwrite.write(urldata)

fwrite.close()

#2、urllib.urlretrieve

urllib.urlretrieve(url, filename)

关于文件系统的处理

文件主要使用到的包:os,shutil;判断文件是否存在:os.path.exists(‘….’)

#判断文件夹是否存在,不存在建立新的文件夹

import os

import shutil

if os.path.exists(prefixpathname):

pass

else:

os.mkdir(prefixpathname)

#删除文件

os.rmdir(...)

os.remove(...)

#由于os.rmdir无法删除一个包含其他文件夹的文件夹,而shutil具有这样的功能

shutil.rmtree(...)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值