爬虫开发(1)——文件操作

写在前面:应专业课程要求,曾使用python在链家网爬取过一万四千多条数据(爬了几个小时…在没有反爬虫策略的情况下-_-||)。
突发兴致,准备深入研究研究python爬虫,拟定了几个阶段,首先就从啃书开始吧。所用书籍是《Python爬虫开发与项目实战》,范传辉老师编著,希望能坚持下去。

文件打开、操作、关闭
f = open(filename, mode=, buffering=, encoding=, errors=, newline=, closefd=)
f.read(): 将所有内容读入内存
f.read(size): 一次最多读取size个字节
f.readline(): 读一行
f.readlines(): 读所有内容,以一行一行的形式返回一个列表
f.write(string)
f.close()

*为了避免IO异常,推荐使用with语句,常见文件打开,关闭语句如下:
with open(‘/Users/dmzxwcy0112/Desktop/test.txt’,’r+’) as file:
str = file.readlines()

OS、shutil模块(filepath 字符串类型、file 文件类型)
os.getcwd(): 获得python脚本的目录路径
os.listdir(“C:\”): 返回指定目录下的所有文件和目录名(列表形式)
os.remove(filepath): 删除文件
os.removedirs(”d:\python”)、os.rmdir(”d:\python”): 删除(多个)空目录
os.path.isfile(filepath): 判断该路径是否为一个文件
os.path.isdir(filepath)
os.path.isabs(filepath):判断该路径是否为绝对路径
os.path.exists(filepath):判断该路径是否存在
os.path.split(filepath):分割一个路径,返回元组类型(filedir,filename)
*仅仅是以 “PATH” 中最后一个 ‘/’ 作为分隔符,分隔后,将索引为0的视为目录(路径),将索引为1的视为文件名
os.path.splitext():分割一个路径,返回元祖类型,如(‘/Users/dmzxwcy0112/Desktop/test’,’.txt’)
os.path.dirname(filepath):获取路径名
os.path.basename(filepath):获取文件名
os.getenv()、os.putenv():读取和设置环境变量
os.rename(oldname,newname):重命名文件
os.mkdir(dir):创建目录
os.stat(file):后取文件属性
os.chmod(file)、os.path.getsize(filename)

shutil.copytree(olddirname,newdirname):参数只能是目录,且newdirname必须不存在
shutil.copyfile(oldfilename,newfilename):oldfilename只能是文件,newfile可文件可目录
shutil.move(oldname,newname)
shutil.rmtree(”d:\python”): 删除目录(无论空与否)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值