Python基础学习——文件操作、函数

一、文件操作

    编码发展史
  • 美国人发明了计算机,用八位0和1的组合,一一对应英文中的字符,整出了一个表格,ASCII表
  • 计算机传入中国,中国地大物博,繁体字和简体字多,8位字节最多表示256个字符,满足不了,于是对ASCII扩展,新表叫GB2312
  • 后来发现GB2312还不够用,扩充之后形成GB18030。
  • 每个国家都像中国一样,把自己的语言编码,于是出现了各种各样的编码,如果你不安装相应的编码,就无法解释相应编码想表达的内容。
  • 各自编码无法国际交流。一个国际组织一起创造了一种编码 UNICODE(Universal Multiple-Octet Coded Character Set)规定所有字符用两个字节表示,就是固定的,所有的字符就两个字节,计算机容易识别。2的16次方可以表示所有的字符了。
  • UNICODE虽然解决了各自为战的问题,但是美国人不愿意了,因为美国原来的ASCII只需要一个字节就可以了。UNICODE编码却让他们的语言多了一个字节,白白浪费一个字节的存储空间。经过协商,出现了一种新的转换格式,被称为通用转换格式,也就是UTF(unicode transformation format).常见的有utf-8,utf-16。utf-8规定,先分类,美国字符一个字节,欧洲两个字符,东南亚三个字符。

    encode()和decode()
  • decode英文意思是 解码,encode英文原意 编码
  • 字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码, 即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。
  • decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。
  • encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。
  • 总得意思:想要将其他的编码转换成utf-8必须先将其解码成unicode然后重新编码成utf-8,它是以unicode为转换媒介的 如:s='中文' 如果是在utf8的文件中,该字符串就是utf8编码,如果是在gb2312的文件中,则其编码为gb2312。这种情况下,要进行编码转换,都需要先用 decode方法将其转换成unicode编码,再使用encode方法将其转换成其他编码。通常,在没有指定特定的编码方式时,都是使用的系统默认编码创建的代码文件

    

字符编码

  一)对文件操作流程

  1. 打开文件,得到文件句柄并赋值给一个变量
  2. 通过文件句柄对文件进行操作
  3. 关闭文件

  二)文件操作

  1、范例
 #打开
  f=open('a.txt',mode='r',encoding='utf-8')
# 读/写
  data=f.read()
  print(data)
 #关闭
  del f #回收Python的资源
  f.close() ##回收操作的资源
  2、文件操作的流程分析
  • 向操作系统发起系统调用
  • 操作系统打开这个文件,返回一个文件句柄给应用程序
  • 在应用程序中把文件句柄赋值给一个变量
  3、注意两点

  1、打开一个文件对应两部分,一个是Python级别的文件句柄,另一个是操作系统打开的文件(默认打开文件的编码是以操作系统的编码为准的,除非open()指定encoding='编码')
  2、当文件操作完毕后,应该回收两部分资源:
  del f #回收应用程序资源(Python解释器自动的垃圾回收机制已经处理完毕)
  f.close #回收操作系统的资源

  三)文件处理:with语句

  with open('a.txt',mode='r',encoding='utf-8') as f:
      print(f.read())
  1、文本类文件操作,操作模式t(text),可省略
    1、r 是默认的文件操作模式,只读,文件不存在则报错
  with open('a.txt',mode='r',encoding='utf-8') as f:
      print(f.readlines()) #读所有行,结果放入列表中(适用于小文件)
      print(f.readline(),end='')  #读一行,去掉后面的换行符
      print(f.read()) #读所有:bytes---->decode('utf-8')---->str
    2、w 只写模式,若文件存在则清空,若文件不存在则新建
  with open('b.txt',mode='w',encoding='utf-8') as f:
      f.write('11111\n')   #写一行 :unicode---->encode(utf-8)---->bytes
      f.writelines(['881899\n','文件\n','qiiqwhuq']) ##写多行
    3、a 追加写模式,若文件存在则把光标已到文件末尾,若文件不存在则新建
  with open('c.txt',mode='a',encoding='utf-8') as f:
      f.write('1899\n')
      f.writelines(['OK\n','权限\n'])
  2、文本类文件操作,操作模式b类型:以bytes的形式去操作文件内容,不能指定编码(不然会报错):可以操作任何类型的文件以读取图片为例
  with open('weiduoliya.jpg',mode='rb') as f:
      print(f.read())
 
  with open('d.txt',mode='wb') as f:
      f.write('alex最牛\n'.encode('utf-8'))
 
  with open('d.txt',mode='ab') as f:
      f.write('engon最棒\n'.encode('utf-8'))

  四)打开文件的模式

  下面的模式可以自由组合

  • ‘r' open for reading (default)
  • ‘w' open for writing, truncating the file first
  • ‘a' open for writing, appending to the end of the file if it exists
  • ‘b' binary mode
  • ‘t' text mode (default)
  • ‘+' open a disk file for updating (reading and writing)
  • ‘U' universal newline mode (for backwards compatibility; should not be used in new code)
#1. 打开文件的模式有(默认为文本模式):
r ,只读模式【默认模式,文件必须存在,不存在则抛出异常】
w,只写模式【不可读;不存在则创建;存在则清空内容】
a, 之追加写模式【不可读;不存在则创建;存在则只追加内容】

#2. 对于非文本文件,我们只能使用b模式,"b"表示以字节的方式操作(而所有文件也都是以字节的形式存储的,使用这种模式无需考虑文本文件的字符编码、图片文件的jgp格式、视频文件的avi格式)
rb 
wb
ab
注:以b方式打开时,读取到的内容是字节类型,写入时也需要提供字节类型,不能指定编码

#3. 了解部分
"+" 表示可以同时读写某个文件
r+, 读写【可读,可写】
w+,写读【可读,可写】
a+, 写读【可读,可写】


x, 只写模式【不可读;不存在则创建,存在则报错】
x+ ,写读【可读,可写】
xb

  五)操作文件的方法

#掌握
f.read() #读取所有内容,光标移动到文件末尾
f.readline() #读取一行内容,光标移动到第二行首部
f.readlines() #读取每一行内容,存放于列表中

f.write('1111\n222\n') #针对文本模式的写,需要自己写换行符
f.write('1111\n222\n'.encode('utf-8')) #针对b模式的写,需要自己写换行符
f.writelines(['333\n','444\n']) #文件模式
f.writelines([bytes('333\n',encoding='utf-8'),'444\n'.encode('utf-8')]) #b模式

#了解
f.readable() #文件是否可读
f.truncate  #_ 截取文件
f.writable() #文件是否可读
f.tell()  #告知光标所在的位置
f.truncate  #截取文件,以字节为单位
f.seek   #指定光标移动到某个位置
f.closed #文件是否关闭
f.encoding #如果文件打开模式为b,则没有该属性
f.flush() #立刻将文件内容从内存刷到硬盘
f.name

  六)文件内光标移动

  一: read(3):

    1. 文件打开方式为文本模式时,代表读取3个字符

    2. 文件打开方式为b模式时,代表读取3个字节

  二: 其余的文件内光标移动都是以字节为单位如seek,tell,truncate

  注意:

    1. seek有三种移动方式0(文件开头),1(当前位置),2(文件末尾),其中1和2必须在b模式下进行,但无论哪种模式,都是以bytes为单位移动的

    2. truncate是截断文件,所以文件的打开方式必须可写,但是不能用w或w+等方式打开,因为那样直接清空文件了,所以truncate要在r+或a或a+等模式下测试效果

  1、简单实践

  0 文件开头seek

with open('a.txt', 'r', encoding="utf-8") as f:
    f.seek(3, 0)
    print(f.read())

  1 文件当前位置seek

with open('a.txt', 'rb') as f:
    f.seek(-3, 1)
    print(f.read().decode('utf-8'))
  truncate只保留部分内容
with open('access.log', 'a+', encoding='utf-8') as f:
    f.truncate(1)

  2、实现tail -f

  tailf.py

import time
with open('access.log', 'rb') as f:
    f.seek(0, 2)
    while 1:
        line = f.readline()
        if line:
            print(line.decode('utf-8'), end='')
        else:
            time.sleep(1)

  向日志文件写内容

with open('access.log', 'a', encoding='utf-8') as f:
    for i in range(3):
        f.write('info 欢迎你归来\n')

  七)文件的修改 

  open的参数全部写上,操作多个文件时,可以换行(避免一行内容过多)

  文件的数据是存放于硬盘上的,因而只存在覆盖、不存在修改这么一说,我们平时看到的修改文件,都是模拟出来的效果,具体的说有两种实现方式:

  方式一:将硬盘存放的该文件的内容全部加载到内存,在内存中是可以修改的,修改完毕后,再由内存覆盖到硬盘(word,vim,nodpad++等编辑器)

import os

with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f:
    data=read_f.read() #全部读入内存,如果文件很大,会很卡
    data=data.replace('alex','SB') #在内存中完成修改

    write_f.write(data) #一次性写入新文件

os.remove('a.txt')
os.rename('.a.txt.swap','a.txt') 

  方式二:将硬盘存放的该文件的内容一行一行地读入内存,修改完毕就写入新文件,最后用新文件覆盖源文件

import os

with open('a.txt') as read_f,open('.a.txt.swap','w') as write_f:
    for line in read_f:
        line=line.replace('alex','SB')
        write_f.write(line)

os.remove('a.txt')
os.rename('.a.txt.swap','a.txt') 

  八)实战

  1、bool值 :所有数据类型都自带bool值
  • 布尔值为假的情况 0 空 None
  • #真默认返回True ,假默认返回False
  x = 1
  # print(bool(x))
  if x:
      print('ok')
  2、循环文件
  with open('a.txt',encoding='utf-8') as f:
      #不推荐使用:消耗资源(磁盘IO)
      lines = f.readlines()  #一下读取所有内容
      for line in lines:
          print(line,end='')
      #推荐使用:读取一行,打印一行内容
      for line in f:
          print(line,end='')

二、函数

  一)函数简介

 1、为什么要用函数?换句话讲不用函数,会怎么样?
  1. 组织结构混乱,可读性差
  2. 代码冗余(重复的代码比较多)
  3. 无法统一管理,维护难度极大
 2、什么叫做函数?使用原则?

  函数:具有某一功能的工具

  使用原则:先定义,后调用

#定义阶段
def tell_tag():
    print('===========')

def tell_msg(msg):
    print(msg)

#调用阶段
tell_tag()
tell_msg('hello world')
 3、函数分类

  1、内置函数:Python解释器自带的函数,Python解释器启动就会定义好这些函数

例如:len(),min(),max()

  2、自定义函数:根据需要用户自己定义的函数(函数名和函数体是必须有的

def 函数名(参数1,参数2,...): 
    """注释"""
    函数体
    return 返回值

  二)函数的定义阶段

  在定义阶段,只检测语法,不执行代码

  函数的定义,将相当于在定义一个变量;若没有定义而直接调用,就相当于没有在引用不存在的变量名。

 1、怎么定义函数
1 def foo():
2     xyz
3     print('111')
4     return 1
5     print('222')
6     return 2 
 2、函数的原则:先定义后调用
#测试1
def foo():
    print('from foo')
    bar() ##bar没有定义就调用,错误
foo()

# 测试2 正确
def bar():
    print('from bar')
def foo():
    print('from foo')
    bar()
foo()

# 测试3 下面的也不会报错,
###定义阶段
def foo():
    print('from foo')
    bar()
def bar():
    print('from bar')
#调用阶段
foo()
 3、定义函数的三种形式
1 无参:应用场景——只执行一些操作,例如:打印等等
2 有参:需要根据外部传进来的参数,才能执行相应的逻辑,例如比较大小,统计数量
3 空函数:设计代码结构

无参

def main():
    while True:
        user=input('>>:').strip()
        # if len(user) == 0:continue  #若长度为0,下面的代码不执行
        if not user:continue
        password=input('>>:')
        res=auth(user,password)
        if res:
            print('login sucessful')
        else:
            print('login error')

有参:函数体的代码,需要外部传入的值

def auth(user,pwd):
    if user == 'egon' and pwd == '123':
        return True
    else:
        return False

main()

空函数:定义完函数,不输入函数体内容,直接输入pass

def select(sql):
    #注释:输入'''''',回车自动输出下面的格式
    '''
    查询功能
    :param sql:
    :return:
    '''
    pass

  三)调用函数

 1、调用函数
函数的调用:函数名加括号
   先找到名字找到函数的内存地址,然后根据名字调用代码
 2、函数的返回值
什么时候该有返回值?
    调用函数,经过一系列的操作,最后要拿到一个明确的结果,则必须要有返回值
    通常有参函数需要有返回值,输入参数,经过计算,得到一个最终的结果
什么时候不需要有返回值?
    调用函数,仅仅只是执行一系列的操作,最后不需要得到什么结果,则无需有返回值
    通常无参函数不需要有返回值

  需要注意以下的第一点:

在调用函数的过程中,一旦执行到return,就会立刻终止函数,并且把return后的结果当做本次调用的返回值返回
#函数体内可以有多个return,但是只能执行一次
1 def test():
2     print('test1')
3     # return 1
4     print('test2')
5     return 2
6     print('test3')
7     return 3
8 res=test()
9 print('函数调用完毕',res)

  需要注意第二点:

返回的值,可以是任意类型
1 #msg={'name':'wzs','sex':'male'}
2 msg=['wzs','egon']
3 def test():
4     print('test1')
5     return msg
6 res=test()
7 print('函数调用完毕',res)

  需要注意的第三点:

没有返回值 —— 返回None
    不写return
    只写return:结束一个函数的继续
    return None  —— 不常用
返回1个值
    可以返回任何数据类型
    只要返回就可以接收到
    如果在一个程序中有多个return,那么只执行第一个
返回多个值
    用多个变量接收:有多少返回值就用多少变量接收
    用一个变量接收: 得到的是一个元组(touple)
1 def test():
2     return None
3 res=test()
4 print('函数调用完毕',res,type(res))
5 print('函数调用完毕',res)
 3、调用的三种方式
1 语句形式:foo()
2 表达式形式:3*len('hello')
3 当中另外一个函数的参数:range(len('hello'))

  四)函数的参数

 1、形参与实参
形参:在定义阶段,括号内定义的参数。就相当于变量名
实参:在调用阶段,括号内定义的参数。就相当于变量值
在调用阶段,实参的值会绑定给形参,在调用结束后,解除绑定
 2、参数的分类
    1、位置参数
    位置形参:必须被传值的参数,多少都不行
    位置实参:从左到右依次赋值给形参
1 def foo(x,y):
2     print(x,y)
3 foo(1,3)
    2.关键字参数:在函数调用阶段,按照key=value的形式定义实参
    特性:
        1、可以不依赖位置而指明参数给形参传参
        2、可以与位置实参混用,需要注意:
            1)位置参数必须在位置参数前面
            2)不能为一个形参重复传值
def foo(x,y):
    print(x,y)

# foo(y=2,x=3)
# foo(3,y=2)
# foo(1,2,y=3)  错误
    3、默认参数(形参):在函数定义阶段,已经为形参赋值了,意味着调用阶段可以不传值
    注意的问题:
        1、默认参数的值,只在定义阶段,赋值一次
        2、位置形参应该默认参数的前面
        3、默认参数的值应该是不可变类型(数字,字符串,元组)
def foo(x,y):
    print(x,y)
foo(1,y=3)


应用场景:学员注册
def resister(name,age,sex='male'):
    print(name,age,sex)

resister('wzs',20)
resister('xiaoyu',27,'female')

x='male'
def resister(name,age,sex=x):
    print(name,age,sex)

x='female' #
resister('wzs',20)  #只在定义阶段,赋值一次
resister('xiaoyu',27,'female')

def resister(name,sex='male',age): #错误:位置形参必须在默认参数前面
    print(name,age,sex)

resister('wzs',20)
resister('xiaoyu',27,'female')
    4、可变长参数:实参值的个数是不固定的
    实参定义形式有两种:1、位置实参 2、关键字实参
    针对这种形式的实参个数不固定,相应的,形参也要有两种解决方案
    位置实参:*  关键字实参:**
针对按照位置定义的溢出的那部门实参,形参:*args  *后面的是变量名,可以随便定义但以args
def func(a,b,c,*args):
    print(a,b,c)
    print(args)

func(1,2,3)
func(1,2,3,4,5,57)
func(1,2,3,*[4,5,57]) ##见到*将列表内容打散func(1,2,3,4,5,57)
func(*[1,2,3,4,5,57])  ##func(1,2,3,4,5,57)
# func([1,2,3,4,5,57])   #func(1,2,3,4,5,57) ##这个是错误的

 针对按照关键字定义的溢出的那部分实参,形参:**kwargs

def foo(x,y,**kwargs): #kwargs={'a':1,'z':3,'b':2}
    print(x,y)
    print(kwargs)

foo(y=2,x=1,z=3,a=1,b=2)
# foo(1,2,3,z=3,a=1,b=2) #赋值不全
foo(y=1,x=2,**{'a':1,'b':2,'c':3}) #foo(x=2,y=1,c=3,b=2,a=1)
# foo(**{'x':1,'a':1,'b':2,'c':3}) #foo(x=1,c=3,b=2,a=1) #少一个y

def foo(x,y,z):
    print(x,y,z)

dic={'x':1,'y':3,'z':1}
foo(**dic)  #foo(x=1,y=3,a=1)

def home(name,age,sex):
    print('from home====>',name,age,sex)

def wrapper(*args,**kwargs): #args=(1,2,3,4,5,6,7),kwargs={'c':3,'b':2,'a':1}
    home(*args,**kwargs)
    # home(*(1,2,3,4,5,6,7),**{'c':3,'b':2,'a':1})
    #home(1,2,3,4,5,7,a=1,b=2,c=3)

# wrapper(1,2,3,4,5,6,7,a=1,b=2,c=3)
wrapper('egon',sex='male',age=19)
    5、命名关键字参数(了解)
    形参中,在*后定义的参数
    特性:传值时,必须按照关键字实参的形式传值
def func(a,b=100,*args,c=1,d):
    print(a,b,c,d)
    print(args)

func(10000,d=10)
func(10,10000,1,45,555,c=1100,d=8999)
这五种参数的排列顺序为:位置参数,默认参数,*args,命名关键字参数,**kwargs

  五)函数对象

  函数是第一类对象:函数可以当做数据来使用

# 1、可以对调用
def func():
    print('from func')

f=func
print(f) ##返回函数的内存地址
f()
# 2、可以当做参数传入一个函数
def wrapper(x):
    print(x)
    x()
wrapper(func)
# 3、可以当做函数的返回值
def wrapper():
    return func
f1=wrapper()
print(f1 is func)
# 4、可以当做容器类型的一个元素
l=[func,1,2] ##当列表的一和元素
print(l)   #打印列表
print(l[0]()) ##取出函数这个元素,并执行函数

  通过此特性可以取代if..elif ...else

def insert(sql):
    print('insert功能: ', sql)

def update(sql):
    print('update功能: ', sql)

def delete(sql):
    print('delete功能: ', sql)

def alter(sql):
    print('alter功能:',sql)

func_dic={
    'select':select,
    'update':update,
    'insert':insert,
    'delete':delete,
    'alter':alter
}

def main():
    while True:
        inp=input('>>: ').strip()
        if not inp:continue
        sql=inp.split()
        cmd=sql[0]
        # if cmd == 'select':
        #     select(sql)
        # elif cmd == 'update':
        #     update(sql)
        # elif cmd == 'insert':
        #     insert(sql)
        # elif cmd == 'delete':
        #     delete(sql)
        if cmd in func_dic:
            func_dic[cmd](sql)
        else:
            print('command not found')

main()

  六)嵌套函数

  1、函数的嵌套调用:在调用一个函数的过程中,又调用另外一个函数
#比较四个数字,找出最大值(两两比较大小)
def max2(x,y):
    if x > y:
        return x
    else:
        return y

def max4(x,y,z,o):
    res1=max2(x,y)
    res2=max2(res1,z)
    res3=max2(res2,o)
    return res3
res=max4(100,111,222,9888)
print(res)
  2、函数的嵌套定义:在定义一个函数内部,又定义一个函数(函数只能同级调用)
def f1():
    def f2():
        x = 2
        def f3():
            x = 3
            print(f'from f{x}')
        f3()
        print(f'from f{x}')
    x = 1
    f2()
    print(f'from f{x}')

f1()

三、名称空间和作用域

  一)名称空间:存放名字与值绑定关系的地方

  

    内置名称空间
        存放的是:内置的名字和值的绑定关系:内置函数len
        生效:Python解释器启动
        失效:Python解释器关闭
    全局名称空间(文件级别)
        存放的是:文件级别定义的名字和值的绑定关系
        生效:执行Python文件时,将该文件级别定义的名字和值的绑定关系存在
        失效:文件执行完毕
    局部名称空间
        存放的是:函数内部定义的名字和值的绑定关系
        生效:调用函数时,临时生效??
        失效:函数调用结束
  加载顺序:
    先内置,再全局,最后局部
  查找名字的顺序:
    先局部,再全局,最后内置

  二)作用域

  作用域:python中global 和 nonlocal 的作用域 - zhoudingzhao - 博客园

全局作用域:
    包含内置名称空间的名字与全局名称空间的名字
    特点:全局存活,全局有效

局部作用域:
    包含局部名称空间的名字
    特点:临时存活,局部有效
 1 x=99009999
 2 def f1(a):
 3     y='abcdefg'
 4     print(locals())
 5     print(globals())
 6 
 7 
 8 ##在全局作用域 locals() is globals()
 9 print(globals())
10 print(locals() is globals())
11 # f1(1)
作用域关系:  

在函数定义时,已经固定,与调用无关
 1 x=1000000000
 2 def f1():
 3     def f2():
 4         x=819892011921818
 5         print(x)
 6     # f2()  #全局变量,局部临时生效
 7     return f2
 8 f=f1()
 9 # print(f)
10 # print(x)  ##返回变量的值是全局的定义值
11 
12 def func():
13     x=123
14     # f()
15 x='hello'
16 func()
  1、global与nonlocal
#全局不可变类型,要改需要加上global(但是要避免这么做)
x=1
def f1():
    global x
    x=2
f1()
print(x)

#全局可变类型,直接进行修改即可
l=[]
def f2():
    l.append('f2')
f2()
print(l)

##nonlocal
x=0
def f1():
    x=1
    def f2():
        # nonlocal x
        x=2
        def f3():
            # nonlocal x  ##跳出当前一层,改的他的上层变量
            x=3
            print("f3",x)
        f3()
        print("f2", x)
    f2()
    print("f1", x)
f1()
print("global", x)
  2、查看作用域 global(),local()
名字查找顺序:locals -> enclosing function -> globals -> __builtins__
python引用变量的顺序: 当前作用域局部变量->外层作用域变量->当前模块中的全局变量->python内置变量 。
locals 是函数内的名字空间,包括局部变量和形参
enclosing 外部嵌套函数的名字空间(闭包中常见)
globals 全局变量,函数定义所在模块的名字空间
builtins 内置模块的名字空间
1 global关键字用来在函数或其他局部作用域中使用全局变量。但是如果不修改全局变量也可以不使用global关键字 
2 声明全局变量,如果在局部要对全局变量修改,需要在局部也要先声明该全局变量:(使用global)
3 在局部如果不声明全局变量,并且不修改全局变量。则可以正常使用全局变量 
4 nonlocal关键字用来在函数或其他作用域中使用外层(非全局)变量 :只能用于局部变量,找离当前函数最近一层的局部变量
  • 21
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值