文本操作（PYTHON、MYSQL、SHELL、LINUX）

已是画中人

已于 2022-12-19 10:13:14 修改

阅读量388

点赞数

文章标签： python mysql linux

于 2022-11-02 15:12:38 首次发布

本文链接：https://blog.csdn.net/o1l1c1y1/article/details/127638403

版权

python

读写、创建文件

python 读写、创建文件
python中对文件、文件夹（文件操作函数）的操作需要涉及到os模块和shutil模块。

得到当前工作目录，即当前Python脚本工作的目录路径: os.getcwd()

返回指定目录下的所有文件和目录名:os.listdir()

函数用来删除一个文件:os.remove()

删除多个目录：os.removedirs（r“c：\python”）

检验给出的路径是否是一个文件：os.path.isfile()

检验给出的路径是否是一个目录：os.path.isdir()

判断是否是绝对路径：os.path.isabs()

检验给出的路径是否真地存:os.path.exists()

返回一个路径的目录名和文件名:os.path.split() eg os.path.split(‘/home/swaroop/byte/code/poem.txt’) 结果：(‘/home/swaroop/byte/code’, ‘poem.txt’)

分离扩展名：os.path.splitext()

获取路径名：os.path.dirname()

获取文件名：os.path.basename()

运行shell命令: os.system()

读取和设置环境变量:os.getenv() 与os.putenv()

给出当前平台使用的行终止符:os.linesep Windows使用’\r\n’，Linux使用’\n’而Mac使用’\r’

指示你正在使用的平台：os.name 对于Windows，它是’nt’，而对于Linux/Unix用户，它是’posix’

重命名：os.rename（old， new）

创建多级目录：os.makedirs（r“c：\python\test”）

创建单个目录：os.mkdir（“test”）

获取文件属性：os.stat（file）

修改文件权限与时间戳：os.chmod（file）

终止当前进程：os.exit（）

获取文件大小：os.path.getsize（filename）

文件操作：
os.mknod(“test.txt”) 创建空文件
fp = open(“test.txt”,w) 直接打开一个文件，如果文件不存在则创建文件

关于open 模式：

w 以写方式打开，
a 以追加模式打开 (从 EOF 开始, 必要时创建新文件)
r+ 以读写模式打开
w+ 以读写模式打开 (参见 w )
a+ 以读写模式打开 (参见 a )
rb 以二进制读模式打开
wb 以二进制写模式打开 (参见 w )
ab 以二进制追加模式打开 (参见 a )
rb+ 以二进制读写模式打开 (参见 r+ )
wb+ 以二进制读写模式打开 (参见 w+ )
ab+ 以二进制读写模式打开 (参见 a+ )

fp.read([size]) #size为读取的长度，以byte为单位

fp.readline([size]) #读一行，如果定义了size，有可能返回的只是一行的一部分

fp.readlines([size]) #把文件每一行作为一个list的一个成员，并返回这个list。其实它的内部是通过循环调用readline()来实现的。如果提供size参数，size是表示读取内容的总长，也就是说可能只读到文件的一部分。

fp.write(str) #把str写到文件中，write()并不会在str后加上一个换行符

fp.writelines(seq) #把seq的内容全部写到文件中(多行一次性写入)。这个函数也只是忠实地写入，不会在每行后面加上任何东西。

fp.close() #关闭文件。python会在一个文件不用后自动关闭文件，不过这一功能没有保证，最好还是养成自己关闭的习惯。如果一个文件在关闭后还对其进行操作会产生ValueError

fp.flush() #把缓冲区的内容写入硬盘

fp.fileno() #返回一个长整型的”文件标签“

fp.isatty() #文件是否是一个终端设备文件（unix系统中的）

fp.tell() #返回文件操作标记的当前位置，以文件的开头为原点

fp.next() #返回下一行，并将文件操作标记位移到下一行。把一个file用于for … in file这样的语句时，就是调用next()函数来实现遍历的。

fp.seek(offset[,whence]) #将文件打操作标记移到offset的位置。这个offset一般是相对于文件的开头来计算的，一般为正数。但如果提供了whence参数就不一定了，whence可以为0表示从头开始计算，1表示以当前位置为原点计算。2表示以文件末尾为原点进行计算。需要注意，如果文件以a或a+的模式打开，每次进行写操作时，文件操作标记会自动返回到文件末尾。

fp.truncate([size]) #把文件裁成规定的大小，默认的是裁到当前文件操作标记的位置。如果size比文件的大小还要大，依据系统的不同可能是不改变文件，也可能是用0把文件补到相应的大小，也可能是以一些随机的内容加上去。

目录操作：
os.mkdir(“file”) 创建目录
复制文件：
shutil.copyfile(“oldfile”,“newfile”) oldfile和newfile都只能是文件
shutil.copy(“oldfile”,“newfile”) oldfile只能是文件夹，newfile可以是文件，也可以是目标目录
复制文件夹：
shutil.copytree(“olddir”,“newdir”) olddir和newdir都只能是目录，且newdir必须不存在
重命名文件（目录）
os.rename(“oldname”,“newname”) 文件或目录都是使用这条命令
移动文件（目录）
shutil.move(“oldpos”,“newpos”)
删除文件
os.remove(“file”)
删除目录
os.rmdir(“dir”)只能删除空目录
shutil.rmtree(“dir”) 空目录、有内容的目录都可以删
转换目录
os.chdir(“path”) 换路径

Python读写文件
1.open
使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。

file_object = open(‘thefile.txt’)
try:
all_the_text = file_object.read( )
finally:
file_object.close( )

注：不能把open语句放在try块里，因为当打开文件出现异常时，文件对象file_object无法执行close()方法。

2.读文件
读文本文件
input = open(‘data’, ‘r’)
#第二个参数默认为r
input = open(‘data’)

读二进制文件
input = open(‘data’, ‘rb’)

读取所有内容
file_object = open(‘thefile.txt’)
try:
all_the_text = file_object.read( )
finally:
file_object.close( )

读固定字节
file_object = open(‘abinfile’, ‘rb’)
try:
while True:
chunk = file_object.read(100)
if not chunk:
break
do_something_with(chunk)
finally:
file_object.close( )

读每行
list_of_all_the_lines = file_object.readlines( )

如果文件是文本文件，还可以直接遍历文件对象获取每行：

for line in file_object:
process line

3.写文件
写文本文件
output = open(‘data’, ‘w’)

写二进制文件
output = open(‘data’, ‘wb’)

追加写文件
output = open(‘data’, ‘w+’)

写数据
file_object = open(‘thefile.txt’, ‘w’)
file_object.write(all_the_text)
file_object.close( )

写入多行
file_object.writelines(list_of_text_strings)

注意，调用writelines写入多行在性能上会比使用write一次性写入要高。

在处理日志文件的时候，常常会遇到这样的情况：日志文件巨大，不可能一次性把整个文件读入到内存中进行处理，例如需要在一台物理内存为 2GB 的机器上处理一个 2GB 的日志文件，我们可能希望每次只处理其中 200MB 的内容。
在 Python 中，内置的 File 对象直接提供了一个 readlines(sizehint) 函数来完成这样的事情。以下面的代码为例：

file = open(‘test.log’, ‘r’)sizehint = 209715200 # 200Mposition = 0lines = file.readlines(sizehint)while not file.tell() - position < 0: position = file.tell() lines = file.readlines(sizehint)

每次调用 readlines(sizehint) 函数，会返回大约 200MB 的数据，而且所返回的必然都是完整的行数据，大多数情况下，返回的数据的字节数会稍微比 sizehint 指定的值大一点（除最后一次调用 readlines(sizehint) 函数的时候）。通常情况下，Python 会自动将用户指定的 sizehint 的值调整成内部缓存大小的整数倍。

file在python是一个特殊的类型，它用于在python程序中对外部的文件进行操作。在python中一切都是对象，file也不例外，file有file的方法和属性。下面先来看如何创建一个file对象：

file(name[, mode[, buffering]])
file()函数用于创建一个file对象，它有一个别名叫open()，可能更形象一些，它们是内置函数。来看看它的参数。它参数都是以字符串的形式传递的。name是文件的名字。
mode是打开的模式，可选的值为r w a U，分别代表读（默认）写添加支持各种换行符的模式。用w或a模式打开文件的话，如果文件不存在，那么就自动创建。此外，用w模式打开一个已经存在的文件时，原有文件的内容会被清空，因为一开始文件的操作的标记是在文件的开头的，这时候进行写操作，无疑会把原有的内容给抹掉。由于历史的原因，换行符在不同的系统中有不同模式，比如在 unix中是一个\n，而在windows中是‘\r\n’，用U模式打开文件，就是支持所有的换行模式，也就说‘\r’ ‘\n’ '\r\n’都可表示换行，会有一个tuple用来存贮这个文件中用到过的换行符。不过，虽说换行有多种模式，读到python中统一用\n代替。在模式字符的后面，还可以加上+ b t这两种标识，分别表示可以对文件同时进行读写操作和用二进制模式、文本模式（默认）打开文件。
buffering如果为0表示不进行缓冲;如果为1表示进行“行缓冲“;如果是一个大于1的数表示缓冲区的大小，应该是以字节为单位的。

file对象有自己的属性和方法。先来看看file的属性。

closed #标记文件是否已经关闭，由close()改写
encoding #文件编码
mode #打开模式
name #文件名
newlines #文件中用到的换行模式，是一个tuple
softspace #boolean型，一般为0，据说用于print

file的读写方法：

F.read([size]) #size为读取的长度，以byte为单位
F.readline([size])
#读一行，如果定义了size，有可能返回的只是一行的一部分
F.readlines([size])
#把文件每一行作为一个list的一个成员，并返回这个list。其实它的内部是通过循环调用readline()来实现的。如果提供size参数，size是表示读取内容的总长，也就是说可能只读到文件的一部分。
F.write(str)
#把str写到文件中，write()并不会在str后加上一个换行符
F.writelines(seq)
#把seq的内容全部写到文件中。这个函数也只是忠实地写入，不会在每行后面加上任何东西。
file的其他方法：

F.close()
#关闭文件。python会在一个文件不用后自动关闭文件，不过这一功能没有保证，最好还是养成自己关闭的习惯。如果一个文件在关闭后还对其进行操作会产生ValueError
F.flush()
#把缓冲区的内容写入硬盘
F.fileno()
#返回一个长整型的”文件标签“
F.isatty()
#文件是否是一个终端设备文件（unix系统中的）
F.tell()
#返回文件操作标记的当前位置，以文件的开头为原点
F.next()
#返回下一行，并将文件操作标记位移到下一行。把一个file用于for … in file这样的语句时，就是调用next()函数来实现遍历的。
F.seek(offset[,whence])
#将文件打操作标记移到offset的位置。这个offset一般是相对于文件的开头来计算的，一般为正数。但如果提供了whence参数就不一定了，whence可以为0表示从头开始计算，1表示以当前位置为原点计算。2表示以文件末尾为原点进行计算。需要注意，如果文件以a或a+的模式打开，每次进行写操作时，文件操作标记会自动返回到文件末尾。
F.truncate([size])
#把文件裁成规定的大小，默认的是裁到当前文件操作标记的位置。如果size比文件的大小还要大，依据系统的不同可能是不改变文件，也可能是用0把文件补到相应的大小，也可能是以一些随机的内容加上去。

迭代器

迭代是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器只能往前不会后退

1.可迭代对象

以直接作用于for循环的数据类型有以下几种：

一类是集合数据类型，如list、tuple、dict、set、str等；

一类是generator，包括生成器和带yield的generator function。

这些可以直接作用于for循环的对象统称为可迭代对象：Iterable。

2.判断是否可以迭代

可以使用isinstance()判断一个对象是否是Iterable对象：

运行结果：

而生成器不但可以作用于for循环，还可以被next()函数不断调用并返回下一个值，直到最后抛出StopIteration错误表示无法继续返回下一个值了。

提取两端字符串中间内容

python 读取txt文件

Python的文本处理是经常碰到的一个问题，Python的txt文件读取中，有三类方法：read()、readline()、readlines()，这三种方法各有利弊，下面逐一介绍其使用方法和利弊。

read()：

read()是最简单的一种方法，一次性读取文件的所有内容放在一个大字符串中，即存在内存中

try:
    file_context = file_object.read() //file_context是一个string，读取完后，就失去了对test.txt的文件引用
    #  file_context = open(file).read().splitlines() 
    // file_context是一个list，每行文本内容是list中的一个元素
finally:
    file_object.close()
//除了以上方法，也可用with、contextlib都可以打开文件，且自动关闭文件，
//以防止打开的文件对象未关闭而占用内存

read()的利端：
方便、简单
一次性独读出文件放在一个大字符串中，速度最快
read()的弊端：
文件过大的时候，占用内存会过大

readline()：

readline()逐行读取文本，结果是一个list

    line = f.readline()
    while line:
        print line
        line = f.readline()

readline()的利端：
占用内存小，逐行读取
readline()的弊端：
由于是逐行读取，速度比较慢

readlines()：

readlines()一次性读取文本的所有内容，结果是一个list

  for line in f.readlines():
     print line

这种方法读取的文本内容，每行文本末尾都会带一个’\n’换行符 (可以使用L.rstrip(‘\n’)去掉换行符）
readlines()的利端：
一次性读取文本内容，速度比较快
readlines()的弊端：
随着文本的增大，占用内存会越来越多
最简单、最快速的逐行处理文本的方法：直接for循环文件对象

file_object = open('test.txt','rU')
try: 
    for line in file_object:
         do_somthing_with(line)//line带"\n"
finally:
     file_object.close()

如果对于读取到的一行内容要进行分割，也很容易，可以使用split进行分割

print s.split()
#输出结果为['hello!', 'my', 'word']

如果是格式化的定长的字符，也可以使用下标进行读取，比如s=‘helloworld’，s[5:]读到的就是’world’

#得到新库的表结构
pattern = re.compile('Table structure for table.*--',re.S)        #贪婪匹配表达式为: .*   非贪婪匹配：.*?

Table_list_n = pattern.findall(new_log)
for line in Table_list_n:
    Table_Structure_new = re.sub(r"/*.*? */;|DROP.*;|/.*?","",line)
    
    file_object = open('tablenew.sql','w',encoding ="utf8")
    file_object.write(Table_Structure_new)
    file_object.close()

原文链接：https://blog.csdn.net/m0_37876745/article/details/83036318

数据类型

Python有五个标准的数据类型：

Numbers（数字）
String（字符串）
List（列表）
Tuple（元组）
Dictionary（字典）

Python支持四种不同的数字类型：

int（有符号整型）
long（长整型，也可以代表八进制和十六进制）
float（浮点型）
complex（复数）

脚本语言

脚本语言的第一行 (只对 Linux/Unix 用户适用) 用来指定本脚本用什么解释器来执行。

有这句的，加上执行权限后，可以直接用 ./ 执行，不然会出错，因为找不到 python 解释器。

#!/usr/bin/python 是告诉操作系统执行这个脚本的时候，调用 /usr/bin 下的 python 解释器。

#!/usr/bin/env python 这种用法是为了防止操作系统用户没有将 python 装在默认的 /usr/bin 路径里。当系统看到这一行的时候，首先会到 env 设置里查找 python 的安装路径，再调用对应路径下的解释器程序完成操作。

#!/usr/bin/python 相当于写死了 python 路径。

#!/usr/bin/env python 会去环境设置寻找 python 目录，可以增强代码的可移植性，推荐这种写法。

分成两种情况：

（1）如果调用 python 脚本时，使用:

python script.py
#!/usr/bin/python 被忽略，等同于注释

（2）如果调用python脚本时，使用:

./script.py
#!/usr/bin/python 指定解释器的路径

PS：shell 脚本中在第一行也有类似的声明。

#!/usr/bin/bash 指定 bash 解释器

原文链接：https://blog.csdn.net/misayaaaaa/article/details/102309624

python re去除标点符号

去除标点符号方式多种多样，这里介绍两种自己常用的。

1、python自带punctuation包，可以消除所有中文标点符号。

import re,string
from zhon.hanzi import punctuation
text = " Hello, world! 这，是：我;第!一个程序\?()（）<>《》 "
print(re.sub(r"[%s]+" %punctuation, "",text))

Hello world 这是我第一个程序

2、自己定义标点符号集，即可以消除中文标点符号也可以消除英文标点符号。

import re,string
text = " Hello, world! 这，是：我;第!一个程序\?()（）<>《》 "
punc = '~`!#$%^&*()_+-=|\';":/.,?><~·！@#￥%……&*（）——+-=“：’；、。，？》《{}'
print(re.sub(r"[%s]+" %punc, "",text))

Hello world 这是我第一个程序

常见报错

python常见报错：

报错	解释	原因	解决
IndexError: list index out of range	对Python中有序序列进行按索引取值的时候，出现这个异常	对于有序序列：字符串 str 、列表 list 、元组 tuple进行按索引取值的时候，默认范围为 0 ~ len(有序序列)-1，计数从0开始，而不是从1开始，最后一位索引则为总长度减去1。当然也可以使用负数表示从倒数第几个，计数从-1开始，则对于有序序列，总体范围为 -len(有序序列) ~ len(有序序列)-1，如果输入的取值结果不在这个范围内，则报这个错	检查索引是否在-len(有序序列) ~ len(有序序列)-1 范围内
‘set’ object is not subscriptable	表示把不具有下标操作的集合对象用成了可取下标对象，使用了[i]操作	在迭代操作的时候,创建成了集合对象,出现了这个BUG(在创建对象时,将()或[]写成了{})	检查创建()或[]是否船舰错误

正则表达式

元字符	描述
\	将下一个字符标记符、或一个向后引用、或一个八进制转义符。例如，“\n"匹配\n。”\n"匹配换行符。序列"\“匹配”“而”(“则匹配”("。即相当于多种编程语言中都有的"转义字符"的概念。
^	匹配输入字行首。如果设置了RegExp对象的Multiline属性，^也匹配"\n"或"\r"之后的位置。
$	匹配输入行尾。如果设置了RegExp对象的Multiline属性，$也匹配"\n"或"\r"之前的位置。
*	匹配前面的子表达式任意次。例如，zo能匹配"z"，也能匹配"zo"以及"zoo"。等价于{0,}。
+	匹配前面的子表达式一次或多次(大于等于1次)。例如，“zo+“能匹配"zo"以及"zoo”，但不能匹配"z”。+等价于{1,}。
?	匹配前面的子表达式零次或一次。例如，"do(es)?“可以匹配"do"或"does”。?等价于{0,1}。
{n}	n是一个非负整数。匹配确定的n次。例如，"o{2}“不能匹配"Bob"中的"o”，但是能匹配"food"中的两个o。
{n,}	n是一个非负整数。至少匹配n次。例如，"o{2,}“不能匹配"Bob"中的"o”，但能匹配"foooood"中的所有o。"o{1,}“等价于"o+”。"o{0,}“则等价于"o*”。
{n,m}	m和n均为非负整数，其中n<=m。最少匹配n次且最多匹配m次。例如，"o{1,3}"将匹配"fooooood"中的前三个o为一组，后三个o为一组。"o{0,1}“等价于"o?”。请注意在逗号和两个数之间不能有空格。
?	当该字符紧跟在任何一个其他限制符(*,+,?，{n}，{n,}，{n,m})后面时，匹配模式是非贪婪的。非贪婪模式尽可能少地匹配所搜索的字符串，而默认的贪婪模式则尽可能多地匹配所搜索的字符串。例如，对于字符串"oooo"，"o+“将尽可能多地匹配"o”，得到结果[“oooo”]，而"o+?“将尽可能少地匹配"o”，得到结果 [‘o’, ‘o’, ‘o’, ‘o’]
.点	匹配除"\n"和"\r"之外的任何单个字符。要匹配包括"\n"和"\r"在内的任何字符，请使用像"[\s\S]"的模式。
(pattern)	匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中则使用$0…$9属性。要匹配圆括号字符，请使用"(“或”)"。
(?:pattern)	非获取匹配，匹配pattern但不获取匹配结果，不进行存储供以后使用。这在使用或字符"(\|)"来组合一个模式的各个部分时很有用。例如"industr(?:y\|ies)"就是一个比"industry\|industries"更简略的表达式。
(?=pattern)	非获取匹配，正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串，该匹配不需要获取供以后使用。例如，“Windows(?=95\|98\|NT\|2000)“能匹配"Windows2000"中的"Windows”，但不能匹配"Windows3.1"中的"Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。
(?!pattern)	非获取匹配，正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串，该匹配不需要获取供以后使用。例如"Windows(?!95\|98\|NT\|2000)“能匹配"Windows3.1"中的"Windows”，但不能匹配"Windows2000"中的"Windows"。
(?<=pattern)	非获取匹配，反向肯定预查，与正向肯定预查类似，只是方向相反。例如，“(?<=95\|98\|NT\|2000)Windows"能匹配"2000Windows"中的"Windows”，但不能匹配"3.1Windows"中的"Windows"。*python的正则表达式没有完全按照正则表达式规范实现，所以一些高级特性建议使用其他语言如java、scala等
(?<!patte_n)	非获取匹配，反向否定预查，与正向否定预查类似，只是方向相反。例如"(?<!95\|98\|NT\|2000)Windows"能匹配"3.1Windows"中的"Windows"，但不能匹配"2000Windows"中的"Windows"。*python的正则表达式没有完全按照正则表达式规范实现，所以一些高级特性建议使用其他语言如java、scala等
x\|y	匹配x或y。例如，“z\|food"能匹配"z"或"food”(此处请谨慎)。“[z\|f]ood"则匹配"zood"或"food”。
[xyz]	字符集合。匹配所包含的任意一个字符。例如，"[abc]“可以匹配"plain"中的"a”。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如，"[^abc]"可以匹配"plain"中的"plin"任一字符。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，"[a-z]"可以匹配"a"到"z"范围内的任意小写字母字符。注意:只有连字符在字符组内部时,并且出现在两个字符之间时,才能表示字符的范围; 如果出字符组的开头,则只能表示连字符本身.
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，"[^a-z]"可以匹配任何不在"a"到"z"范围内的任意字符。
\b	匹配一个单词的边界，也就是指单词和空格间的位置(即正则表达式的"匹配"有两种概念，一种是匹配字符，一种是匹配位置，这里的\b就是匹配位置的)。例如，“er\b"可以匹配"never"中的"er”，但不能匹配"verb"中的"er";“\b1_“可以匹配"1_23"中的"1_”，但不能匹配"21_3"中的"1_”。
\B	匹配非单词边界。“er\B"能匹配"verb"中的"er”，但不能匹配"never"中的"er"。
\cx	匹配由x指明的控制字符。例如，\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则，将c视为一个原义的"c"字符。
\d	匹配一个数字字符。等价于[0-9]。grep 要加上-P，perl正则支持
\D	匹配一个非数字字符。等价于[^0-9]。grep要加上-P，perl正则支持
\f	匹配一个换页符。等价于\x0c和\cL。
\n	匹配一个换行符。等价于\x0a和\cJ。
\r	匹配一个回车符。等价于\x0d和\cM。
\s	匹配任何不可见字符，包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。
\S	匹配任何可见字符。等价于[^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于\x09和\cI。
\v	匹配一个垂直制表符。等价于\x0b和\cK。
\w	匹配包括下划线的任何单词字符。类似但不等价于"[A-Za-z0-9_]"，这里的"单词"字符使用Unicode字符集。
\W	匹配任何非单词字符。等价于"[^A-Za-z0-9_]"。
\xn	匹配n，其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，“\x41"匹配"A”。“\x041"则等价于”\x04&1"。正则表达式中可以使用ASCII编码。
num	匹配num，其中num是一个正整数。对所获取的匹配的引用。例如，"(.)\1"匹配两个连续的相同字符。
n	标识一个八进制转义值或一个向后引用。如果n之前至少n个获取的子表达式，则n为向后引用。否则，如果n为八进制数字(0-7)，则n为一个八进制转义值。
nm	标识一个八进制转义值或一个向后引用。如果nm之前至少有nm个获得子表达式，则nm为向后引用。如果nm之前至少有n个获取，则n为一个后跟文字m的向后引用。如果前面的条件都不满足，若n和m均为八进制数字(0-7)，则nm将匹配八进制转义值nm。
nml	如果n为八进制数字(0-7)，且m和l均为八进制数字(0-7)，则匹配八进制转义值nml。
\un	匹配n，其中n是一个用四个十六进制数字表示的Unicode字符。例如，\u00A9匹配版权符号(©)。
\p{P}	小写 p 是 property 的意思，表示 Unicode 属性，用于 Unicode 正表达式的前缀。中括号内的"P"表示Unicode 字符集七个字符属性之一:标点字符。其他六个属性:L:字母;M:标记符号(一般不会单独出现);Z:分隔符(比如空格、换行等);S:符号(比如数学符号、货币符号等);N:数字(比如阿拉伯数字、罗马数字等);C:其他字符。*注:此语法部分语言不支持，例:javascript。
<>	匹配词(word)的开始(<)和结束(>)。例如正则表达式<the>能够匹配字符串"for the wise"中的"the"，但是不能匹配字符串"otherwise"中的"the"。注意:这个元字符不是所有的软件都支持的。
( )	将( 和 ) 之间的表达式定义为"组"(group)，并且将匹配这个表达式的字符保存到一个临时区域(一个正则表达式中最多可以保存9个)，它们可以用 \1 到\9 的符号来引用。
\|	将两个匹配条件进行逻辑"或"(or)运算。例如正则表达式(him\|her) 匹配"it belongs to him"和"it belongs to her"，但是不能匹配"it belongs to them."。注意:这个元字符不是所有的软件都支持的。

console.log方法

console.log方法用于在控制台输出信息。它可以接受一个或多个参数，将它们连接起来输出。

console.log('Hello World')
// Hello World
console.log('a', 'b', 'c')
// a b c

console.log方法会自动在每次输出的结尾，添加换行符。

console.log(2);
console.log(3);
// 1
// 2
// 3

如果第一个参数是格式字符串（使用了格式占位符），console.log方法将依次用后面的参数替换占位符，然后再进行输出。

console.log(' %s + %s = %s', 1, 1, 2)
//  1 + 1 = 2

上面代码中，console.log方法的第一个参数有三个占位符（%s），第二、三、四个参数会在显示时，依次替换掉这个三个占位符。

console.log方法支持以下占位符，不同类型的数据必须使用对应的占位符。

%s 字符串
%d 整数
%i 整数
%f 浮点数
%o 对象的链接
%c CSS 格式字符串

var number = 11 * 9;
var color = 'red';

console.log('%d %s balloons', number, color);
// 99 red balloons

上面代码中，第二个参数是数值，对应的占位符是%d，第三个参数是字符串，对应的占位符是%s。

使用%c占位符时，对应的参数必须是 CSS 代码，用来对输出内容进行 CSS 渲染。

console.log(
  '%cThis text is styled!',
  'color: red; background: yellow; font-size: 24px;'
)

上面代码运行后，输出的内容将显示为黄底红字。

console.log方法的两种参数格式，可以结合在一起使用。

console.log(' %s + %s ', 1, 1, '= 2')
// 1 + 1  = 2

如果参数是一个对象，console.log会显示该对象的值。

console.log({foo: 'bar'})
// Object {foo: "bar"}
console.log(Date)
// function Date() { [native code] }

上面代码输出Date对象的值，结果为一个构造函数

原文链接：https://blog.csdn.net/qq_29007709/article/details/86238095

MYSQL

MySQL修改表结构

1、添加与删除字段

(1)、添加

Alter table 表名 add【column】字段名列类型列属性【first|after 字段名】

ALTER TABLE 表名称 
ADD 列名1 数据类型 [约束] [COMMENT 注释,
ADD 列名2 数据类型 [约束] [COMMENT 注释];

(2)、删除

Alter table 表名 drop【column】字段名;

ALTER TABLE 表名称 
DROP 列名1,
DROP 列名2;

2.修改字段名

语句：alter table 表名 change 原字段名新字段名列类型列属性;

说明：就算是仅修改字段名，那么字段的原始类型，原属性也要重新书写，不然就变为删除。

语句：alter table 表名 modify 字段名列类型列属性;

语句：alter table 表名 rename to 新表名;

ALTER TABLE 表名 CHANGE 列名 新列名 数据类型 [约束] [COMMENT 注释]

5.修改表选项

语句：alter table 表名表选项；

说明：虽然MYSQL提供了修改表选项的命令，但是如果一个表中已经有数据，那么就不要执行修改字符集的命令。

6.修改列属性

列属性包含not null、default、unique、primary key、auto_increment

当一个表创建以后，对于列属性的操作，我们可以使用alter table 表名 modify 来操作。在操作的时候如果书写了列属性就

是添加列属性，如果没有书写就是删除列属性。

特殊的列属性：Primary key和unique。

增加列属性

普通属性的增加：

语句：alter table 表名 modify 字段名列类型列属性；

ALTER TABLE 表名 MODIFY 列名 数据类型 [约束] [COMMENT 注释]

说明：

A、auto_increment在添加时需要注意字段必须是整数，而且是unique或者primary key。

B、Unique与default不能一起连用。

主键属性的添加：

语句：alter table 表名 add primary key(字段名);

修改表结构的步骤：

# 步骤 1: 创建一个新表

# 步骤 2: 修改清空表. 这应该比较快,
# Step 3: 创建触发器来捕获原始表的改变 <–(锁定元数据)

# Step 4: 复制数据.
# Step 5: 重命名表: <–(锁定元数据

# Step 6: 更新外键如果是子表.

# Step 7: 删除旧表.

列表约束、主键相关

PRIMARY KEY与identity(1,1)的含义

PRIMARY KEY 约束表中经常有一个列或列的组合，其值能唯一地标识表中的每一行。这样的一列或多列称为表的主键，通过它可强制表的实体完整性。当创建或更改表时可通过定义 PRIMARY KEY 约束来创建主键。
一个表只能有一个 PRIMARY KEY 约束，而且 PRIMARY KEY 约束中的列不能接受空值。由于 PRIMARY KEY 约束确保唯一数据，所以经常用来定义标识列。
当为表指定 PRIMARY KEY 约束时，Microsoft® SQL Server? 2000 通过为主键列创建唯一索引强制数据的唯一性。当在查询中使用主键时，该索引还可用来对数据进行快速访问。
假如 PRIMARY KEY 约束定义在不止一列上，则一列中的值可以重复，但 PRIMARY KEY 约束定义中的所有列的组合的值必须唯一。
如下图所示，titleauthor 表中的 au_id 和 title_id 列组成该表的组合 PRIMARY KEY 约束，以确保 au_id 和 title_id 的组合唯一。
当进行联接时，PRIMARY KEY 约束将一个表与另一个表相联。例如，若要确定作者与书名的对应关系，可以使用 authors 表、titles 表和 titleauthor 表的三向联接。因为 titleauthor 包含 au_id 和 title_id 两列，对 titles 表的访问可由 titleauthor 和 titles 之间的关联进行。
请参见创建和修改 PRIMARY KEY 约束

Transact-SQL 参考
IDENTITY（函数）只用在带有 INTO table 子句的 SELECT 语句中，以将标识列插入到新表中。尽管类似，但是 IDENTITY 函数不是与 CREATE TABLE 和 ALTER TABLE 一起使用的 IDENTITY 属性。
语法
IDENTITY ( data_type [ , seed , increment ] ) AS column_name
参数
data_type
标识列的数据类型。标识列的有效数据类型可以是任何整数数据类型分类的数据类型（bit 数据类型除外），也可以是 decimal 数据类型。
seed
要指派给表中第一行的值。给每一个后续行指派下一个标识值，该值等于上一个 IDENTITY 值加上 increment 值。假如既没有指定 seed，也没有指定 increment，那么它们都默认为 1。
increment
用来添加到 seed 值以获得表中连续行的增量。
column_name 将插入到新表中的列的名称。
返回类型返回与 data_type 相同的类型。
注释因为该函数在表中创建一个列，所以必须用下列方式中的一种在选择列表中指定该列的名称：
–(1)
SELECT IDENTITY(int, 1,1) AS ID_Num
INTO NewTable
FROM OldTable
–(2)
SELECT ID_Num = IDENTITY(int, 1, 1)
INTO NewTable
FROM OldTable
示例下面的示例将来自 pubs 数据库中 employee 表的所有行都插入到名为 employees 的新表。使用 IDENTITY 函数在 employees 表中从 100 而不是 1 开始编标识号。
USE pubs
IF EXISTS(SELECT TABLE_NAME FROM INFORMATION_SCHEMA.TABLES
WHERE TABLE_NAME = ‘employees’)
DROP TABLE employees
GO
EXEC sp_dboption ‘pubs’, ‘select into/bulkcopy’, ‘true’
SELECT emp_id AS emp_num,
fname AS first,
minit AS middle,
lname AS last,
IDENTITY(smallint, 100, 1) AS job_num,
job_lvl AS job_level,
pub_id,
hire_date
INTO employees
FROM employee
GO
USE pubs
EXEC sp_dboption ‘pubs’, ‘select into/bulkcopy’, ‘false’
请参见
CREATE TABLE
@@IDENTITY
IDENTITY（属性）
SELECT @local_variable
使用系统函数
[code=SQL] 创建和维护数据库
PRIMARY KEY 约束
表中经常有一个列或列的组合，其值能唯一地标识表中的每一行。这样的一列或多列称为表的主键，通过它可强制表的实体完整性。当创建或更改表时可通过定义 PRIMARY KEY 约束来创建主键。
一个表只能有一个 PRIMARY KEY 约束，而且 PRIMARY KEY 约束中的列不能接受空值。由于 PRIMARY KEY 约束确保唯一数据，所以经常用来定义标识列。
当为表指定 PRIMARY KEY 约束时，Microsoft® SQL Server? 2000 通过为主键列创建唯一索引强制数据的唯一性。当在查询中使用主键时，该索引还可用来对数据进行快速访问。
假如 PRIMARY KEY 约束定义在不止一列上，则一列中的值可以重复，但 PRIMARY KEY 约束定义中的所有列的组合的值必须唯一。
如下图所示，titleauthor 表中的 au_id 和 title_id 列组成该表的组合 PRIMARY KEY 约束，以确保 au_id 和 title_id 的组合唯一。
当进行联接时，PRIMARY KEY 约束将一个表与另一个表相联。例如，若要确定作者与书名的对应关系，可以使用 authors 表、titles 表和 titleauthor 表的三向联接。因为 titleauthor 包含 au_id 和 title_id 两列，对 titles 表的访问可由 titleauthor 和 titles 之间的关联进行。
请参见

创建和修改 PRIMARY KEY 约束

mysql中unsigned的用法理解

unsigned 是MYSQL自定义的类型，非标准SQL。用途1是起到约束数值的作用，2是可以增加数值范围（相当于把负数那部分加到正数上）。不过少用，不方便移植。
unsigned 为“无符号”的意思
unsigned 既为非负数，用此类型可以增加数据长度!
例如如果 tinyint最大是127，那 tinyint unsigned 最大就可以到 127 * 2
unsigned 属性只针对整型，而binary属性只用于char 和varchar。
UNSIGNED 可用来约束数据的范围，例如有些年龄这种值一般能是负数，那么就可以设置一个 UNSIGNED ，这样可以不允许负数插入

看起来这是一个不错的属性选项，特别是对于主键是自增长的类型，因为一般来说，用户都希望主键是非负数。然而在实际使用中，UNSIGNED可能会带来一些负面的影响：计算可能会出现非预期结果：

select a-b from table1;

但预期结果是负数时，则实际结果可能是个很大的值，甚至sql执行报错

当(a-b)在where子句后时也会出现相同的情况

AUTO_INCREMENT

是随着你数据库里面数据项的增加而自动增加值的一个属性，一般在像MYSQL这种数据库里，主键一般都是用ID号，比如学生的学号，公民的身份证号等，这种ID号是唯一的，是可以唯一标识数据库里面的一项数据的，而这种ID号并不需要自己动手去一个个输入，直接通过设置AUTO_INCREMENT就可以从小到大自动生成了。

ENGINE=InnoDB 表示将数据库的引擎设置为InnoDB,从MySQL 5.6开始默认使用该引擎。
DEFAULT CHARSET=utf8 表示设置数据库的默认字符集为utf8
AUTO_INCREMENT=1 表示自动增长的起始值为1

AUTO_INCREMENT会在新记录插入表中时生成一个唯一的数字。希望在每次插入新记录时，自动地创建主键字段的值，可以在表中创建一个 auto-increment 字段

扩展资料：

如果希望在每次插入新记录时，自动地创建主键字段的值。可以在表中创建一个 auto-increment 字段。MySQL 使用 AUTO_INCREMENT 关键字来执行 auto-increment 任务。默认地AUTO_INCREMENT 的开始值是 1，每条新记录递增 1。
主键又称主关键字，主关键字(primary key)是表中的一个或多个字段，它的值用于唯一地标识表中的某一条记录。在两个表的关系中，主关键字用来在一个表中引用来自于另一个表中的特定记录。主关键字是一种唯一关键字，表定义的一部分。一个表的主键可以由多个关键字共同组成，并且主关键字的列不能包含空值。主关键字是可选的，并且可在 CREATE TABLE 或 ALTER TABLE 语句中定义。

SQL 将两个结构相同的表合并到成一个表

select *
into 新表名
from (select * from T1 union all select * from T2)

这个语句可以实现将合并的数据追加到一个新表中。

不合并重复数据
select * from T1 union all select * from T2

合并重复数据
select * from T1 union select * from T2

两个表，表1 表2
如果要将表1的数据并入表2用以下语句即可

insert into 表2(字段1,字段2) select 字段1,字段2 from b1

注意，必须把字段名全部写清楚，而且不允许把自动编号进去写进去，要合并自动编号字段必须重写一个算法一条一条记录地加进去

1 insert into b1 select * from b2
2 select * into newtable from (select * from b1 union all select * from b2)

对已存在的表进行插入列

alter table 表名 add column 列名数据类型 default 默认值 ;

修改插入标题

–A.添加新列
ALTER TABLE 表名 ADD 列名 VARCHAR(20)
–B.修改列名
EXEC sp_rename ‘dbo.表名.列名’, ‘新列名’, ‘COLUMN’

知识点衍生

1.删除列
ALTER TABLE 表名 DROP COLUMN column_b
2.更改列的数据类型
ALTER TABLE 表名 ALTER COLUMN 列 DECIMAL (5, 2)
3.添加包含约束的列(唯一约束)
ALTER TABLE 表 ADD 列 VARCHAR(20) NULL
CONSTRAINT 约束名 UNIQUE
4.添加一个未验证的check约束
ALTER TABLE 表 WITH NOCHECK
ADD CONSTRAINT 约束名 CHECK (列 > 1)
5.在现有列中添加一个DEFAULT约束
ALTER TABLE 表
ADD CONSTRAINT 约束名
DEFAULT 50 FOR 列名
6.删除约束
ALTER TABLE 表 DROP CONSTRAINT 约束名
7.更改排序规则
ALTER TABLE 表
ALTER COLUMN 列 varchar(50) COLLATE Latin1_General_BIN
8.修改表名
EXEC sp_rename ‘dbo.表名’, ‘新表名’
9.重命名索引
EXEC sp_rename N’dbo.表名.索引名’, N’新索引名’, N’INDEX’

1.1Python 文件读写查找、替换的相关操作，
参考：https://blog.csdn.net/liangrui1988/article/details/49539137

1.2Python 插入内容到指定文件的位置
if pos != -1:
content = content[:pos] + content_add + content[pos:]

参考：https://blog.csdn.net/jusulysunbeamy/article/details/51290129

1.3Python 的正则表达
Findall

注意：返回的是匹配的字符串，若没有匹配，返回[],而不是什么也不返回

1.4 Python replace的应用
参考：http://www.runoob.com/python/python-reg-expressions.html

1.5 Python 两个list 组合成字典
keys = [‘a’, ‘b’, ‘c’]

values = [1, 2, 3]

dictionary = dict(zip(keys, values))

print(dictionary)
1.6 根据字典的对应关系，对文本进行替换
a_dict = {‘apple’:‘1’,‘tree’:‘2’,‘123456’:‘3’}
input_file = open(r’d:\test_body.txt’,“r”).read();
for key,value in a_dict.items():
input_file=input_file.replace(key,value);
1.7 seek的用法：
seek()方法: 用它设置当前文件读/写指针的偏移。

seek()方法的语法如下：fileObject.seek(offset[, whence])。offset参数指明偏移量，第二个参数指出第一个参数偏移基准是哪里：

offset的取值可为：0,1,2; 0 表示移动到一个绝对位置（从文件开始算起），1 表示移到一个相对位置（从当前位置算起）， 2 表示对于文件尾的一个相对位置。”

参考：https://blog.csdn.net/liuchunming033/article/details/39376147

1.8 整体代码：

import re
import os
class myMethod(object):
    def __init__(self, file1):
        self.file1 = file1
        self._count = None

    def count_main(self, main_str):
        '''
        搜索文件中指定字符串的个数
        :param file_name: 文件名称  type=str
        :param main_str: 要搜索的目标字段  type=str
        :return:
        '''
        fo = open(self.file1, "r+") 
        # 打开文件，r+：打开一个文件用于读写。文件指针将会放在文件的开头。
        # 参考：http://www.runoob.com/python3/python3-inputoutput.html
        li_list = []
        fo.seek(0, 0) 
        for s in fo.readlines():
            li = re.findall(main_str, s)
            if li != []:
                li_list.append(li)
            else:
                continue
        fo.close()
        return len(li_list)
     
    def add_str(self, file2, main_str):
        '''
        :param file_name: 原始的文件名  type = str
        :param file_new_name: 新生成的文件名 type = str
        :param main_str: 搜索的字符串
        :return:
        '''
        self._count = self.count_main(main_str)
        fo = open(self.file1, "r+")
        fo.seek(0, 0)
        content = fo.read()
        for i in range(1, self._count // 3 + 1):
            add_list = [' id="apname' + str(i) + '" class="ap"', ' class="outer"', ' class="wifi"']
            for j in range(3):
                pos = content.find("<g>")
                if pos != -1:
                    content = content[:pos + 2] + add_list[j] + content[pos + 2:]
        fo_new = open(file2, "w") 
        # w 打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被         
        # 删除。如果该文件不存在，创建新文件。
        fo_new.write(content)
        fo_new.close()
        fo.close()
        return file2

def excelColToList1(excel_file):
    # data = xlrd.open_workbook(path + '/' + file_r)
    data = xlrd.open_workbook(excel_file)
    sheet1 = data.sheets()[0]


    nrows = sheet1.nrows
    ncols = sheet1.ncols
     
    apnames = []
    apInPictureNums= []
     
    for i in range(2, nrows):
        apname = sheet1.cell(i, 9).value
        apname = apname.strip()
        apnames.append(apname)
        apInPictureNum = sheet1.cell(i, 15).value
        apInPictureNum = apInPictureNum.strip()
        apInPictureNums.append(apInPictureNum)
    new_str = [apnames[i] + '" name="' + apInPictureNums[i] for i in range(len(apnames))]
    dictionary = dict(zip(apInPictureNums, new_str))
    return dictionary
     
    def replace_str(self, file2, old_str, new_str, new_list_strs):
        '''
        :param file2: 需要替换某些字符串的文本 type=“str”
        :param old_str: 需要被替换的字符串 type = "str" 比如apname
        :param new_str: 将old_str 替换成new_str tupe='str' 比如 h2-1f-ap
        :param new_list_strs: 在AI打点时 的顺序
        :return:
        '''
        fo = open(file2, "r")
        mykeys = []
        myvalues = []
        for i in range(0, self._count // 3):
            mykeys.append(old_str+str(i+1))
            myvalues.append(new_str+str(new_list_strs[i]))
        mydict = dict(zip(mykeys, myvalues))
        content = fo.read()
        for key, value in mydict.items():
            content = content.replace(key, value)
        fo_new = open(self.file1, "w")
        fo_new.write(content)
        fo_new.close()
        fo.close()
        os.remove(file2)
        return self.file1

file1 = "testCopy.txt"
file2 = "testCopy2.txt"
main_str = "<g>"
mytest = myMethod(file1)
file = mytest.add_str(file2, main_str)
old_str = "apname"
new_str = "h2-1f-ap"
new_list_strs = [1,2,3]
mytest.replace_str(file, old_str, new_str, new_list_strs)

MySQL远程授权navicat

>grant all on *.* to root@'%';           #给所有用户授权

>FLUSH PRIVILEGES;                      #刷新

LINUX、SHELL

sed

Linux sed 命令是利用脚本来处理文本文件。

sed 可依照脚本的指令来处理、编辑文本文件。

Sed 主要用来自动编辑一个或多个文件、简化对文件的反复操作、编写转换程序等。

语法
sed [-hnV][-e<script>][-f<script文件>][文本文件]
参数说明：

-e

例一：

sed ‘s/A/B/g‘ xxx 中g的含义  表示全局替换

sed的替换命令格式：s/A/B/g 或者 s#A#B#g 或者 s_A_B_g#。
替换 s/A/B/ 就是A替换成B
例如：sed ‘s//\t/g’ xxx：将所有空格替换为制表符\t，g表示全局替换，有多少次替换多少次。

s 是替代命令. s/表达式/replacement/

空白用t替代。如果你的unix中 \t表示tab键，则用tab键替代。

g(GLOBAL)的作用从下例可以看出

** g – 全部替代**

** 无g – 只替代每行第一个**

例二：
 sed 's/.*\(\..*$\)/\1/'
s///表示将12两个斜杠中的内容替换为23两个斜杠间的内容
.表示任意字符。
*表示重复任意次。
所以.*表示任意长度的字符串。
取(的分组的功能，单单写(不加饭斜杠\，那么sed就到字符串中匹配(了，同。
\.刚好相反，由于.表示任意字符，如果要表示.本身，就要加反斜杠\
$表示字符串结尾。
\1表示前面中匹配到的内容。

例三：


#sed  ':a;N;$!ba;s/\n/ /g'   :a;N;$!ba;是把内容合并为一行，因为sed默认是逐行处理的，    s/\n/ /g 是把换行符替换为空格
#sed s/[[:space:]]//g  把空格替换为空，即删除空格
xxxx|sed  ':a;N;$!ba;s/\n/ /g'|sed s/[[:space:]]//g

难点解读：
sed ‘:a;N;$!ba;s/\n/ /g’ 这将在一个循环里读取整个文件，然后将换行符替换成一个空格。

当然：也可以直接删除换行符，只需要把替换的目标内容由空格替换为空(注意：不是空格) //之间没有空格
sed ‘:a;N;$!ba;s/\n//g’

语法说明：

通过 :a创建一个标记

通过N追加当前行和下一行到模式区域

如果处于最后一行前，跳转到之前的标记处。 ! b a ( !ba (!ba(! 意思是不在最后一行做这操作 (最后一行就被当成最后的一行）).

最后置换操作把模式区域（就是整个文件）的每一个换行符换成一个空格。

示例追加：
$ echo -e "1\n2" | sed ':a;N;$!ba;s/\n/ /g'

1 2

s#\(.*\),\(.*\)#\1\2#

tr ‘a-z’ 'A-Z’相当于uc，字符由小写转换成大写

awk

AWK 是一种处理文本文件的语言

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，默认以空格为分隔符将每行切片，切开的部分再进行各种分析处理。awk是行处理器,相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息

awk处理过程 : 依次对每一行进行处理，然后输出

awk的用法

awk 参数 ’ BEGIN{} // {action1;action2} ’ END{} 文件名

参数：

-F 指定分隔符
-f 调用脚本
-v 定义变量

Begin{} 初始化代码块，在对每一行进行处理之前，初始化代码，主要是引用全局变量，设置FS分隔符

// 匹配代码块，可以是字符串或正则表达式

{} 命令代码块，包含一条或多条命令,多条命令用 ; 隔开

END{} 结尾代码块，在对每一行进行处理之后再执行的代码块，主要是进行最终计算或输出结尾摘要信息

例：awk ‘BEGIN{X=0}/root/{X+=1}END{print “I find”,X,“root lines”}’ /etc/passwd 统计 /etc/passwd 文件中包含root行的总数

awk中字符的含义

$0 表示整个当前行
$1 每行第一个字段
NF 字段数量变量
NR 每行的记录号，多文件记录递增
FNR 与NR类似，不过多文件记录不递增，每个文件都从1开始
\t 制表符
\n 换行符
FS BEGIN时定义分隔符
RS 输入的记录分隔符，默认为换行符(即文本是按一行一行输入)
~ 包含
!~ 不包含
== 等于，必须全部相等，精确比较
!= 不等于，精确比较
&& 逻辑与
|| 逻辑或
+ 匹配时表示1个或1个以上
/0-9+/ 两个或两个以上数字
/0-9*/ 一个或一个以上数字
OFS 输出字段分隔符，默认也是空格，可以改为其他的
ORS 输出的记录分隔符，默认为换行符,即处理结果也是一行一行输出到屏幕
-F [:#/] 定义了三个分隔符

print 打印

print 是 awk打印指定内容的主要命令，也可以用 printf
awk ‘{print}’ /etc/passwd == awk ‘{print $0}’ /etc/passwd
awk ‘{print " "}’ /etc/passwd 不输出passwd的内容，而是输出相同个数的空行，进一步解释了awk是一行一行处理文本
awk ‘{print “a”}’ /etc/passwd 输出相同个数的a行，一行只有一个a字母
awk -F: ‘{print Extra close brace or missing open brace1}’ /etc/passwd
awk -F: ‘{print 2}’ 输入字段1,2，中间不分隔
awk -F: ‘{print 3,$6}’ OFS=“\t” /etc/passwd 输出字段1,3,6，以制表符作为分隔符
awk -F: ‘{print 2}’ /etc/passwd 输入字段1,2，分行输出
awk -F: ‘{print 2}’ /etc/passwd 输入字段1,2，中间以**分隔
awk -F: ‘{print "name:"3}’ /etc/passwd 自定义格式输出字段1,2
awk -F: ‘{print NF}’ /etc/passwd 显示每行有多少字段
awk -F: ‘NF>2{print }’ /etc/passwd 将每行字段数大于2的打印出来
awk -F: ‘NR==5{print}’ /etc/passwd 打印出/etc/passwd文件中的第5行
awk -F: ‘NR5|NR6{print}’ /etc/passwd 打印出/etc/passwd文件中的第5行和第6行
awk -F: ‘NR!=1{print}’ /etc/passwd 不显示第一行
awk -F: ‘{print > “1.txt”}’ /etc/passwd 输出到文件中
awk -F: ‘{print}’ /etc/passwd > 2.txt 使用重定向输出到文件中

字符匹配

awk -F: ‘/root/{print }’ /etc/passwd 打印出文件中含有root的行
awk -F: '/'打印出文件中含有变量A的行
awk -F: ‘!/root/{print}’ /etc/passwd 打印出文件中不含有root的行
awk -F: ‘/root|tom/{print}’ /etc/passwd 打印出文件中含有root或者tom的行
awk -F: ‘/mail/,mysql/{print}’ test 打印出文件中含有 mail*mysql 的行，*代表有0个或任意多个字符
awk -F: ‘/^2[7]*/{print}’ test 打印出文件中以27开头的行，如27,277,27gff 等等
awk -F: ‘$1~/root/{print}’ /etc/passwd 打印出文件中第一个字段是root的行
awk -F: ‘($1==“root”){print}’ /etc/passwd 打印出文件中第一个字段是root的行，与上面的等效
awk -F: ‘$1!~/root/{print}’ /etc/passwd 打印出文件中第一个字段不是root的行
awk -F: ‘($1!=“root”){print}’ /etc/passwd 打印出文件中第一个字段不是root的行，与上面的等效
awk -F: ‘$1~/root|ftp/{print}’ /etc/passwd 打印出文件中第一个字段是root或ftp的行
awk -F: ‘(1==“ftp”){print}’ /etc/passwd 打印出文件中第一个字段是root或ftp的行，与上面的等效
awk -F: ‘$1!~/root|ftp/{print}’ /etc/passwd 打印出文件中第一个字段不是root或不是ftp的行
awk -F: ‘(1!=“ftp”){print}’ /etc/passwd 打印出文件中第一个字段不是root或不是ftp的行，与上面等效
awk -F: ‘{if($1~/mail/) {print $1} else {print $2}}’ /etc/passwd 如果第一个字段是mail，则打印第一个字段，否则打印第2个字段

格式化输出

awk ‘{printf “%-5s %.2d”,2}’ test

printf 表示格式输出
%格式化输出分隔符
-8表示长度为8个字符
s表示字符串类型，d表示小数

举例

1、显示 /etc/passwd 中含有 root 的行

awk ‘/root/’ /etc/passwd

2、以 : 为分隔，显示/etc/passwd中每行的第1和第7个字段

awk -F “:” ‘{print 1,7}’ /etc/passwd

3、以 : 为分隔，显示/etc/passwd中含有 root 的行的第1和第7个字段

awk -F “:” '/root/{print

4、以 : 为分隔，显示/etc/passwd中以 root 开头行的第1和第7个字段

awk -F “:” '/^root/{print

5、以 : 为分隔，显示/etc/passwd中第3个字段大于999的行的第1和第7个字段

awk -F “:” ’

6、以 : 为分隔，显示/etc/passwd中第7个字段包含bash的行的第1和第7个字段

awk -F “:” ’

7、以 : 为分隔，显示/etc/passwd中第7个字段不包含bash的行的第1和第7个字段

awk -F “:” ’

8、以 : 为分隔，显示$3>999并且第7个字段包含bash的行的第1和第7个字段

awk -F “:” ‘1,7}’ /etc/passwd

9、以 : 为分隔，显示$3>999或第7个字段包含bash的行的第1和第7个字段

awk -F “:” ‘1,7}’ /etc/passwd

语法
awk [选项参数] 'script' var=value file(s)
或
awk [选项参数] -f scriptfile var=value file(s)
选项参数说明：

-F fs or --field-separator fs
指定输入文件折分隔符，fs是一个字符串或者是一个正则表达式，如-F:。
-v var=value or --asign var=value
赋值一个用户定义变量。
-f scripfile or --file scriptfile
从脚本文件中读取awk命令。
-mf nnn and -mr nnn
对nnn值设置内在限制，-mf选项限制分配给nnn的最大块数目；-mr选项限制记录的最大数目。这两个功能是Bell实验室版awk的扩展功能，在标准awk中不适用。
-W compact or --compat, -W traditional or --traditional
在兼容模式下运行awk。所以gawk的行为和标准的awk完全一样，所有的awk扩展都被忽略。
-W copyleft or --copyleft, -W copyright or --copyright
打印简短的版权信息。
-W help or --help, -W usage or --usage
打印全部awk选项和每个选项的简短说明。
-W lint or --lint
打印不能向传统unix平台移植的结构的警告。
-W lint-old or --lint-old
打印关于不能向传统unix平台移植的结构的警告。
-W posix
打开兼容模式。但有以下限制，不识别：/x、函数关键字、func、换码序列以及当fs是一个空格时，将新行作为一个域分隔符；操作符和=不能代替^和=；fflush无效。
-W re-interval or --re-inerval
允许间隔正则表达式的使用，参考(grep中的Posix字符类)，如括号表达式[[:alpha:]]。
-W source program-text or --source program-text
使用program-text作为源代码，可与-f命令混用。
-W version or --version
打印bug报告信息的版本。

基本用法

log.txt文本内容如下：
2 this is a test
3 Do you like awk
This's a test
10 There are orange,apple,mongo
用法一：
awk '{[pattern] action}' {filenames}   # 行匹配语句 awk '' 只能用单引号
实例：
# 每行按空格或TAB分割，输出文本中的1、4项
 $ awk '{print $1,$4}' log.txt
 ---------------------------------------------
 2 a
 3 like
 This's
 10 orange,apple,mongo
 # 格式化输出
 $ awk '{printf "%-8s %-10s\n",$1,$4}' log.txt
 ---------------------------------------------
 2        a
 3        like
 This's
 10       orange,apple,mongo
用法二：
awk -F  #-F相当于内置变量FS, 指定分割字符
实例：
# 使用","分割
 $  awk -F, '{print $1,$2}'   log.txt
 ---------------------------------------------
 2 this is a test
 3 Do you like awk
 This's a test
 10 There are orange apple
 # 或者使用内建变量
 $ awk 'BEGIN{FS=","} {print $1,$2}'     log.txt
 ---------------------------------------------
 2 this is a test
 3 Do you like awk
 This's a test
 10 There are orange apple
 # 使用多个分隔符.先使用空格分割，然后对分割结果再使用","分割
 $ awk -F '[ ,]'  '{print $1,$2,$5}'   log.txt
 ---------------------------------------------
 2 this test
 3 Are awk
 This's a
 10 There apple
用法三：
awk -v  # 设置变量
实例：
 $ awk -va=1 '{print $1,$1+a}' log.txt
 ---------------------------------------------
 2 3
 3 4
 This's 1
 10 11
 $ awk -va=1 -vb=s '{print $1,$1+a,$1b}' log.txt
 ---------------------------------------------
 2 3 2s
 3 4 3s
 This's 1 This'ss
 10 11 10s
用法四：
awk -f {awk脚本} {文件名}
实例：
 $ awk -f cal.awk log.txt
运算符

运算符描述
= += -= *= /= %= ^= **= 赋值
?: C条件表达式
|| 逻辑或
&& 逻辑与
~ 和 !~ 匹配正则表达式和不匹配正则表达式
< <= > >= != == 关系运算符
空格连接
+ - 加，减
* / % 乘，除与求余
+ - ! 一元加，减和逻辑非
^ *** 求幂
++ – 增加或减少，作为前缀或后缀
$ 字段引用
in 数组成员

过滤第一列大于2的行
$ awk '$1>2' log.txt    #命令
#输出
3 Do you like awk
This's a test
10 There are orange,apple,mongo
过滤第一列等于2的行
$ awk '$1==2 {print $1,$3}' log.txt    #命令
#输出
2 is
过滤第一列大于2并且第二列等于’Are’的行
$ awk '$1>2 && $2=="Are" {print $1,$2,$3}' log.txt    #命令
#输出
3 Are you
内建变量

变量描述
$n 当前记录的第n个字段，字段间由FS分隔
$0 完整的输入记录
ARGC 命令行参数的数目
ARGIND 命令行中当前文件的位置(从0开始算)
ARGV 包含命令行参数的数组
CONVFMT 数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组
ERRNO 最后一个系统错误的描述
FIELDWIDTHS 字段宽度列表(用空格键分隔)
FILENAME 当前文件名
FNR 各文件分别计数的行号
FS 字段分隔符(默认是任何空格)
IGNORECASE 如果为真，则进行忽略大小写的匹配
NF 一条记录的字段的数目
NR 已经读出的记录数，就是行号，从1开始
OFMT 数字的输出格式(默认值是%.6g)
OFS 输出字段分隔符，默认值与输入字段分隔符一致。
ORS 输出记录分隔符(默认值是一个换行符)
RLENGTH 由match函数所匹配的字符串的长度
RS 记录分隔符(默认是一个换行符)
RSTART 由match函数所匹配的字符串的第一个位置
SUBSEP 数组下标分隔符(默认值是/034)
$ awk 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR","FS","NF","NR","OFS","ORS","RS";printf "---------------------------------------------\n"} {printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}'  log.txt
FILENAME ARGC  FNR   FS   NF   NR  OFS  ORS   RS
---------------------------------------------
log.txt    2    1         5    1
log.txt    2    2         5    2
log.txt    2    3         3    3
log.txt    2    4         4    4
$ awk -F\' 'BEGIN{printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n","FILENAME","ARGC","FNR","FS","NF","NR","OFS","ORS","RS";printf "---------------------------------------------\n"} {printf "%4s %4s %4s %4s %4s %4s %4s %4s %4s\n",FILENAME,ARGC,FNR,FS,NF,NR,OFS,ORS,RS}'  log.txt
FILENAME ARGC  FNR   FS   NF   NR  OFS  ORS   RS
---------------------------------------------
log.txt    2    1    '    1    1
log.txt    2    2    '    1    2
log.txt    2    3    '    2    3
log.txt    2    4    '    1    4
# 输出顺序号 NR, 匹配文本行号
$ awk '{print NR,FNR,$1,$2,$3}' log.txt
---------------------------------------------
1 1 2 this is
2 2 3 Are you
3 3 This's a test
4 4 10 There are
# 指定输出分割符
$  awk '{print $1,$2,$5}' OFS=" $ "  log.txt
---------------------------------------------
2 $ this $ test
3 $ Are $ awk
This's $ a $
10 $ There $
使用正则，字符串匹配
# 输出第二列包含 "th"，并打印第二列与第四列
$ awk '$2 ~ /th/ {print $2,$4}' log.txt
---------------------------------------------
this a
~ 表示模式开始。// 中是模式。
# 输出包含 "re" 的行
$ awk '/re/ ' log.txt
---------------------------------------------
3 Do you like awk
10 There are orange,apple,mongo
忽略大小写
$ awk 'BEGIN{IGNORECASE=1} /this/' log.txt
---------------------------------------------
2 this is a test
This's a test
模式取反
$ awk '$2 !~ /th/ {print $2,$4}' log.txt
---------------------------------------------
Are like
a
There orange,apple,mongo
$ awk '!/th/ {print $2,$4}' log.txt
---------------------------------------------
Are like
a
There orange,apple,mongo
awk脚本

关于 awk 脚本，我们需要注意两个关键词 BEGIN 和 END。

BEGIN{ 这里面放的是执行前的语句 }
END {这里面放的是处理完所有的行后要执行的语句 }
{这里面放的是处理每一行时要执行的语句}

假设有这么一个文件（学生成绩表）：
$ cat score.txt
Marry   2143 78 84 77
Jack    2321 66 78 45
Tom     2122 48 77 71
Mike    2537 87 97 95
Bob     2415 40 57 62
我们的 awk 脚本如下：
$ cat cal.awk
#!/bin/awk -f
#运行前
BEGIN {
    math = 0
    english = 0
    computer = 0

    printf "NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL\n"
    printf "---------------------------------------------\n"
}
#运行中
{
    math+=$3
    english+=$4
    computer+=$5
    printf "%-6s %-6s %4d %8d %8d %8d\n", $1, $2, $3,$4,$5, $3+$4+$5
}
#运行后
END {
    printf "---------------------------------------------\n"
    printf "  TOTAL:%10d %8d %8d \n", math, english, computer
    printf "AVERAGE:%10.2f %8.2f %8.2f\n", math/NR, english/NR, computer/NR
}
我们来看一下执行结果：
$ awk -f cal.awk score.txt
NAME    NO.   MATH  ENGLISH  COMPUTER   TOTAL
---------------------------------------------
Marry  2143     78       84       77      239
Jack   2321     66       78       45      189
Tom    2122     48       77       71      196
Mike   2537     87       97       95      279
Bob    2415     40       57       62      159
---------------------------------------------
  TOTAL:       319      393      350
AVERAGE:     63.80    78.60    70.00
另外一些实例

AWK 的 hello world 程序为：
BEGIN { print "Hello, world!" }
计算文件大小
$ ls -l *.txt | awk '{sum+=$5} END {print sum}'
--------------------------------------------------
666581
从文件中找出长度大于 80 的行：
awk 'length>80' log.txt
打印九九乘法表
seq 9 | sed 'H;g' | awk -v RS='' '{for(i=1;i<=NF;i++)printf("%dx%d=%d%s", i, NR, i*NR, i==NR?"\n":"\t")}'

运算符	描述
= += -= = /= %= ^= *=	赋值
?:	C条件表达式
\|\|	逻辑或
&&	逻辑与
~ 和 !~	匹配正则表达式和不匹配正则表达式
< <= > >= != ==	关系运算符
空格	连接
+ -	加，减
* / %	乘，除与求余
+ - !	一元加，减和逻辑非
^ ***	求幂
++ –	增加或减少，作为前缀或后缀
$	字段引用
in	数组成员

变量	描述
$n	当前记录的第n个字段，字段间由FS分隔
$0	完整的输入记录
ARGC	命令行参数的数目
ARGIND	命令行中当前文件的位置(从0开始算)
ARGV	包含命令行参数的数组
CONVFMT	数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组
ERRNO	最后一个系统错误的描述
FIELDWIDTHS	字段宽度列表(用空格键分隔)
FILENAME	当前文件名
FNR	各文件分别计数的行号
FS	字段分隔符(默认是任何空格)
IGNORECASE	如果为真，则进行忽略大小写的匹配
NF	一条记录的字段的数目
NR	已经读出的记录数，就是行号，从1开始
OFMT	数字的输出格式(默认值是%.6g)
OFS	输出字段分隔符，默认值与输入字段分隔符一致。
ORS	输出记录分隔符(默认值是一个换行符)
RLENGTH	由match函数所匹配的字符串的长度
RS	记录分隔符(默认是一个换行符)
RSTART	由match函数所匹配的字符串的第一个位置
SUBSEP	数组下标分隔符(默认值是/034)

grep

Linux 命令大全

Linux grep 命令用于查找文件里符合条件的字符串。

grep 指令用于查找内容包含指定的范本样式的文件，如果发现某文件的内容符合所指定的范本样式，预设 grep 指令会把含有范本样式的那一列显示出来。若不指定任何文件名称，或是所给予的文件名为 -，则 grep 指令会从标准输入设备读取数据。

语法
grep [-abcEFGhHilLnqrsvVwxy][-A<显示行数>][-B<显示列数>][-C<显示列数>][-d<进行动作>][-e<范本样式>][-f<范本文件>][--help][范本样式][文件或目录...]
参数：

-a 或 --text : 不要忽略二进制的数据。
-A<显示行数> 或 --after-context=<显示行数> : 除了显示符合范本样式的那一列之外，并显示该行之后的内容。
-b 或 --byte-offset : 在显示符合样式的那一行之前，标示出该行第一个字符的编号。
-B<显示行数> 或 --before-context=<显示行数> : 除了显示符合样式的那一行之外，并显示该行之前的内容。
-c 或 --count : 计算符合样式的列数。
-C<显示行数> 或 --context=<显示行数>或-<显示行数> : 除了显示符合样式的那一行之外，并显示该行之前后的内容。
-d <动作> 或 --directories=<动作> : 当指定要查找的是目录而非文件时，必须使用这项参数，否则grep指令将回报信息并停止动作。
-e<范本样式> 或 --regexp=<范本样式> : 指定字符串做为查找文件内容的样式。
-E 或 --extended-regexp : 将样式为延伸的正则表达式来使用。
-f<规则文件> 或 --file=<规则文件> : 指定规则文件，其内容含有一个或多个规则样式，让grep查找符合规则条件的文件内容，格式为每行一个规则样式。
-F 或 --fixed-regexp : 将样式视为固定字符串的列表。
-G 或 --basic-regexp : 将样式视为普通的表示法来使用。
-h 或 --no-filename : 在显示符合样式的那一行之前，不标示该行所属的文件名称。
-H 或 --with-filename : 在显示符合样式的那一行之前，表示该行所属的文件名称。
-i 或 --ignore-case : 忽略字符大小写的差别。
-l 或 --file-with-matches : 列出文件内容符合指定的样式的文件名称。
-L 或 --files-without-match : 列出文件内容不符合指定的样式的文件名称。
-n 或 --line-number : 在显示符合样式的那一行之前，标示出该行的列数编号。
-o 或 --only-matching : 只显示匹配PATTERN 部分。
-q 或 --quiet或–silent : 不显示任何信息。
-r 或 --recursive : 此参数的效果和指定"-d recurse"参数相同。
-s 或 --no-messages : 不显示错误信息。
-v 或 --invert-match : 显示不包含匹配文本的所有行。
-V 或 --version : 显示版本信息。
-w 或 --word-regexp : 只显示全字符合的列。
-x --line-regexp : 只显示全列符合的列。
-y : 此参数的效果和指定"-i"参数相同。

Linux 命令大全

实例

1、在当前目录中，查找后缀有 file 字样的文件中包含 test 字符串的文件，并打印出该字符串的行。此时，可以使用如下命令：
grep test *file 
结果如下所示：
$ grep test test* #查找前缀有“test”的文件包含“test”字符串的文件  
testfile1:This a Linux testfile! #列出testfile1 文件中包含test字符的行  
testfile_2:This is a linux testfile! #列出testfile_2 文件中包含test字符的行  
testfile_2:Linux test #列出testfile_2 文件中包含test字符的行 
2、以递归的方式查找符合条件的文件。例如，查找指定目录/etc/acpi 及其子目录（如果存在子目录的话）下所有文件中包含字符串"update"的文件，并打印出该字符串所在行的内容，使用的命令为：
grep -r update /etc/acpi 
输出结果如下：
$ grep -r update /etc/acpi #以递归的方式查找“etc/acpi”  
#下包含“update”的文件  
/etc/acpi/ac.d/85-anacron.sh:# (Things like the slocate updatedb cause a lot of IO.)  
Rather than  
/etc/acpi/resume.d/85-anacron.sh:# (Things like the slocate updatedb cause a lot of  
IO.) Rather than  
/etc/acpi/events/thinkpad-cmos:action=/usr/sbin/thinkpad-keys--update 
3、反向查找。前面各个例子是查找并打印出符合条件的行，通过"-v"参数可以打印出不符合条件行的内容。

查找文件名中包含 test 的文件中不包含test 的行，此时，使用的命令为：
grep -v test *test*
结果如下所示：
$ grep-v test* #查找文件名中包含test 的文件中不包含test 的行  
testfile1:helLinux!  
testfile1:Linis a free Unix-type operating system.  
testfile1:Lin  
testfile_1:HELLO LINUX!  
testfile_1:LINUX IS A FREE UNIX-TYPE OPTERATING SYSTEM.  
testfile_1:THIS IS A LINUX TESTFILE!  
testfile_2:HELLO LINUX!  
testfile_2:Linux is a free unix-type opterating system.  
Shell 文件包含

Nginx 安装配置

2 篇笔记写笔记

场景： 系统报警显示了时间，但是日志文件太大无法直接 cat 查看。(查询含有特定文本的文件，并拿到这些文本所在的行)

解决：
grep -n '2019-10-24 00:01:11' *.log
Linux 里利用 grep 和 find 命令查找文件内容

从文件内容查找匹配指定字符串的行：
$ grep "被查找的字符串" 文件名
例子：在当前目录里第一级文件夹中寻找包含指定字符串的 .in 文件
grep "thermcontact" /.in
从文件内容查找与正则表达式匹配的行：
$ grep –e "正则表达式" 文件名
查找时不区分大小写：
$ grep –i "被查找的字符串" 文件名
查找匹配的行数：

$ grep -c “被查找的字符串” 文件名

从文件内容查找不匹配指定字符串的行：
$ grep –v "被查找的字符串" 文件名
从根目录开始查找所有扩展名为 .log 的文本文件，并找出包含 “ERROR” 的行：
$ find / -type f -name "*.log" | xargs grep "ERROR"
例子：从当前目录开始查找所有扩展名为 .in 的文本文件，并找出包含 “thermcontact” 的行：
find . -name "*.in" | xargs grep "thermcontact"

awk、sed、grep更适合的方向:

grep 更适合单纯的查找或匹配文本
sed 更适合编辑匹配到的文本
awk 更适合格式化文本，对文本进行较复杂格式处理

关于awk内建变量个人见解，简单易懂

解释一下变量：

变量：分为内置变量和自定义变量;输入分隔符FS和输出分隔符OFS都属于内置变量。

内置变量就是awk预定义好的、内置在awk内部的变量，而自定义变量就是用户定义的变量。

FS(Field Separator)：输入字段分隔符，默认为空白字符
OFS(Out of Field Separator)：输出字段分隔符，默认为空白字符
RS(Record Separator)：输入记录分隔符(输入换行符)，指定输入时的换行符
ORS(Output Record Separate)：输出记录分隔符（输出换行符），输出时用指定符号代替换行符
NF(Number for Field)：当前行的字段的个数(即当前行被分割成了几列)
NR(Number of Record)：行号，当前处理的文本行的行号。
FNR：各文件分别计数的行号
ARGC：命令行参数的个数
ARGV：数组，保存的是命令行所给定的各参数

自定义变量的方法

方法一：-v varname=value ，变量名区分字符大小写。
方法二：在program中直接定义。