哈哈哈,我又来参加DataWhale组队学习了,本期是第32期组队学习,具体时间20211213~20211228,学习网址如下:
课程链接
备份链接
目录
任务5
5.1 学习python下os模块处理文件和目录的函数
python
中 os
模块异常强大,提供非常多的处理方法,都记住确实困难,可以用到时再查询,下表列出了64种方法,可以参考。
序号 | 方法 | 描述 |
---|---|---|
1 | os.access(path, mode) | 检验权限模式 |
2 | os.chdir(path) | 改变当前工作目录 |
3 | os.chflags(path, flags) | 设置路径的标记为数字标记。 |
4 | os.chmod(path, mode) | 更改权限 |
5 | os.chown(path, uid, gid) | 更改文件所有者 |
6 | os.chroot(path) | 改变当前进程的根目录 |
7 | os.close(fd) | 关闭文件描述符 fd |
8 | os.closerange(fd_low, fd_high) | 关闭所有文件描述符,从 fd_low (包含) 到 fd_high (不包含), 错误会忽略 |
9 | os.dup(fd) | 复制文件描述符 fd |
10 | os.dup2(fd, fd2) | 将一个文件描述符 fd 复制到另一个 fd2 |
11 | os.fchdir(fd) | 通过文件描述符改变当前工作目录 |
12 | os.fchmod(fd, mode) | 改变一个文件的访问权限,该文件由参数fd指定,参数mode是Unix下的文件访问权限。 |
13 | os.fchown(fd, uid, gid) | 修改一个文件的所有权,这个函数修改一个文件的用户ID和用户组ID,该文件由文件描述符fd指定。 |
14 | os.fdatasync(fd) | 强制将文件写入磁盘,该文件由文件描述符fd指定,但是不强制更新文件的状态信息。 |
15 | os.fdopen(fd[, mode[, bufsize]]) | 通过文件描述符 fd 创建一个文件对象,并返回这个文件对象 |
16 | os.fpathconf(fd, name) | 返回一个打开的文件的系统配置信息。name为检索的系统配置的值,它也许是一个定义系统值的字符串,这些名字在很多标准中指定(POSIX.1, Unix 95, Unix 98, 和其它)。 |
17 | os.fstat(fd) | 返回文件描述符fd的状态,像stat()。 |
18 | os.fstatvfs(fd) | 返回包含文件描述符fd的文件的文件系统的信息,像 statvfs() |
19 | os.fsync(fd) | 强制将文件描述符为fd的文件写入硬盘。 |
20 | os.ftruncate(fd, length) | 裁剪文件描述符fd对应的文件, 所以它最大不能超过文件大小。 |
21 | os.getcwd() | 返回当前工作目录 |
22 | os.getcwdu() | 返回一个当前工作目录的Unicode对象 |
23 | os.isatty(fd) | 如果文件描述符fd是打开的,同时与tty(-like)设备相连,则返回true, 否则False。 |
24 | os.lchflags(path, flags) | 设置路径的标记为数字标记,类似 chflags(),但是没有软链接 |
25 | os.lchmod(path, mode) | 修改连接文件权限 |
26 | os.lchown(path, uid, gid) | 更改文件所有者,类似 chown,但是不追踪链接。 |
27 | os.link(src, dst) | 创建硬链接,名为参数 dst,指向参数 src |
28 | os.listdir(path) | 返回path指定的文件夹包含的文件或文件夹的名字的列表。 |
29 | os.lseek(fd, pos, how) | 设置文件描述符 fd当前位置为pos, how方式修改: SEEK_SET 或者 0 设置从文件开始的计算的pos; SEEK_CUR或者 1 则从当前位置计算; os.SEEK_END或者2则从文件尾部开始. 在unix,Windows中有效 |
30 | os.lstat(path) | 像stat(),但是没有软链接 |
31 | os.major(device) | 从原始的设备号中提取设备major号码 (使用stat中的st_dev或者st_rdev field)。 |
32 | os.makedev(major, minor) | 以major和minor设备号组成一个原始设备号 |
33 | os.makedirs(path[, mode]) | 递归文件夹创建函数。像mkdir(), 但创建的所有intermediate-level文件夹需要包含子文件夹。 |
34 | os.minor(device) | 从原始的设备号中提取设备minor号码 (使用stat中的st_dev或者st_rdev field )。 |
35 | os.mkdir(path[, mode]) | 以数字mode的mode创建一个名为path的文件夹.默认的 mode 是 0777 (八进制)。 |
36 | os.mkfifo(path[, mode]) | 创建命名管道,mode 为数字,默认为 0666 (八进制) |
37 | os.mknod(filename[, mode=0600, device]) | 创建一个名为filename文件系统节点(文件,设备特别文件或者命名pipe)。 |
38 | os.open(file, flags[, mode]) | 打开一个文件,并且设置需要的打开选项,mode参数是可选的 |
39 | os.openpty() | 打开一个新的伪终端对。返回 pty 和 tty的文件描述符。 |
40 | os.pathconf(path, name) | 返回相关文件的系统配置信息。 |
41 | os.pipe() | 创建一个管道. 返回一对文件描述符(r, w) 分别为读和写 |
42 | os.popen(command[, mode[, bufsize]]) | 从一个 command 打开一个管道 |
43 | os.read(fd, n) | 从文件描述符 fd 中读取最多 n 个字节,返回包含读取字节的字符串,文件描述符 fd对应文件已达到结尾, 返回一个空字符串。 |
44 | os.readlink(path) | 返回软链接所指向的文件 |
45 | os.remove(path) | 删除路径为path的文件。如果path 是一个文件夹,将抛出OSError; 查看下面的rmdir()删除一个 directory。 |
46 | os.removedirs(path) | 递归删除目录。 |
47 | os.rename(src, dst) | 重命名文件或目录,从 src 到 dst |
48 | os.renames(old, new) | 递归地对目录进行更名,也可以对文件进行更名。 |
49 | os.rmdir(path) | 删除path指定的空目录,如果目录非空,则抛出一个OSError异常。 |
50 | os.stat(path) | 获取path指定的路径的信息,功能等同于C API中的stat()系统调用。 |
51 | os.stat_float_times([newvalue]) | 决定stat_result是否以float对象显示时间戳 |
52 | os.statvfs(path) | 获取指定路径的文件系统统计信息 |
53 | os.symlink(src, dst) | 创建一个软链接 |
54 | os.tcgetpgrp(fd) | 返回与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组 |
55 | os.tcsetpgrp(fd, pg) | 设置与终端fd(一个由os.open()返回的打开的文件描述符)关联的进程组为pg。 |
56 | os.tempnam([dir[, prefix]]) | 返回唯一的路径名用于创建临时文件。 |
57 | os.tmpfile() | 返回一个打开的模式为(w+b)的文件对象 .这文件对象没有文件夹入口,没有文件描述符,将会自动删除。 |
58 | os.tmpnam() | 为创建一个临时文件返回一个唯一的路径 |
59 | os.ttyname(fd) | 返回一个字符串,它表示与文件描述符fd 关联的终端设备。如果fd 没有与终端设备关联,则引发一个异常。 |
60 | os.unlink(path) | 删除文件路径 |
61 | os.utime(path, times) | 返回指定的path文件的访问和修改的时间。 |
62 | os.walk(top[, topdown=True[, οnerrοr=None[, followlinks=False]]]) | 输出在文件夹中的文件名通过在树中游走,向上或者向下。 |
63 | os.write(fd, str) | 写入字符串到文件描述符 fd中. 返回实际写入的字符串长度 |
64 | os.path 系列 | 用来获取文件的属性信息的一系列方法,详情请参考:https://www.runoob.com/python/python-os-path.html |
5.2 学习python下sys模块和传参函数
sys模块提供了一系列有关Python运行环境的变量和函数。
具体如下:
序号 | 方法 | 描述 |
---|---|---|
1 | sys.argv | 获取当前正在执行的命令行参数的参数列表(list) |
2 | sys.path | 返回模块的搜索路径,初始化时使用PYTHONPATH环境变量的值 |
3 | sys.platform | 获取当前执行环境的平台,如win32表示是Windows系统,linux2表示是linux平台 |
4 | sys.exit(n) | 调用sys.exit(n)可以中途退出程序,当参数非0时,会引发一个SystemExit异常,从而可以在主程序中捕获该异常。 |
5 | sys.version | 获取Python解释程序的版本信息 |
6 | sys.getrefcount | 获取一个值的应用计数 |
7 | sys.getrecursionlimit | python默认支持的递归数量 |
8 | sys.getdefaultencoding() | 获取系统当前编码 |
9 | sys.getfilesystemencoding() | 获取文件系统使用编码方式,Windows下返回’mbcs’,mac下返回’utf-8’ |
10 | sys.modules | sys.modules是一个全局字典,该字典在python启动后就加载在内存中。每当程序员导入新的模块,sys.modules将自动记录该模块。当第二次再导入该模块时,python会直接到字典中查找,从而加快了程序运行的速度。它拥有字典所拥有的一切方法。 |
11 | sys.stdout.write | 可以做输出重定向,如果需要更好地控制输出,而 print 不能满足你的需求时, 它就是你需要的。 |
5.3 os、sys 函数使用实践
接下来,编写 test5.py
来实现如下功能:
- 打印命令行参数
- 使用os模块打印/usr/bin/路径下所有以m开头的文件
根据前面学习的内容,使用 sys.argv
方法即可获得命令行参数;使用 os.listdir(path)
可以获取目录下所有文件和文件夹,而题目要求打印的只是文件,还需要 os.path.isfile(xxx)
判断一下,至于 m
开头可以使用 str.startswith
方法。
完整代码如下:
#! /usr/bin/env python3
import os,sys
print(sys.argv[0])
print(sys.argv[1])
print(sys.argv[2])
print('*' * 100)
dir_name = '/usr/bin'
for f in os.listdir(dir_name):
fullname = os.path.join(dir_name, f)
if os.path.isfile(fullname) and f.startswith('m'):
print(f)
任务6
6.1 学习python模块化
模块是一个包含函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 python 标准库的方法。
在任务5中创建的 test5.py
就是一个模块。
6.2 创建指定文件夹
创建脚本如下:
mkdir affairs
6.3 python模块化代码实践
根据要求,读取网络文件要写成方法,就是说这个 url
要作为一个参数,而不是常量,正好可以用到任务5学到的 sys.argv[1]
方法来向python模块传入参数。
功能1:
affairs.py
代码完成https://mirror.coggle.club/dataset/affairs.txt
文件的读取,这里可以直接用pd.read_csv('https://mirror.coggle.club/dataset/affairs.txt')
来完成。这一部分建议写为函数。
功能2:test6.py
可以导入affairs.py
代码
功能3:test6.py
可以进行命令行解析,输出affairs.txt
具体的第几行内容。
affairs.py 代码如下
#affairs.py
import pandas as pd
def read_url(url):
df = pd.read_csv(url)
print(df.head()
由于目录层级是这样的,import 引入 affairs
模块时,因为 affairs.affairs
/home/datawhale/mba1398/datawhale/
test6.py
affairs/
affairs.py
test6.py 代码如下
#test6.py
import sys
from affairs.affairs import read_url
url_para = sys.argv[1]
read_url(url_para)
执行效果如下:
任务7
7.1 sleep实现程序休眠
在没有学习后台执行任务的方法之前,我能想到的让程序一直运行的方法就是 while true
了。( Ctrl + C 终止程序)
import time
while True:
time.sleep(10)
print(time.ctime())
7.2 学习 & 和 nohup后台执行的方法
-
命令末尾加上
&
参数可以让程序在后台执行,缺点是窗口关闭后程序就会终止(Ctrl + D 也会终止程序),优点是执行命令之后,终端仍可以接受输入
直接关闭窗口之后,使用ps -ef
命令查看进程,发现该进程已经不存在。
-
nohup
可以让程序一直在后台运行,即使窗口关闭,缺点是使用nohup
命令后,终端不再接受输入(使用exit
命令退出nohup
进程)
关闭窗口之后,去查看nohup
命令输出文件nohup.out
发现程序并没有终止,一直再打印信息
小插曲,由于执行nohup
命令时未显示进程号,而本次组队学习场景,好多同学使用了相同的命令,导致使用ps -ef
命令也找不到自己的进程,无奈只能kill
了所有的跟我命令一样的进程,kill
之后发现还是不好使,尴尬了。。。自己目录下的文件一直在打印内容,文件大小一直在变大,眼看要60M
了,看着好揪心,删除nohup.out
文件之后居然没自动创建,哈哈哈,看来这次是干掉了。
为继续进行本次学习,特将 sleep.py
文件名修改为 sleep_mba1398.py
。
使用 nohup
命令后,依次使用 Ctrl + Z
bg
jobs -l
kill -9 PID
即可看到进程后台挂起又被杀死的过程。
- 同时使用
nohup &
同时使用nohup &
,既可以实现输入命令之后还是接受输入,又可以保持程序一直运行(即使窗口关闭)
此处实验效果较差
7.3 学习tmux的使用
使用 tmux
可以创建一个虚拟的会话终端,shell
终端的关闭不会影响虚拟终端的任务执行,这样我们就可以把耗时较长的任务放到虚拟终端里去执行。
tmux
主要有以下用法:
序号 | 功能 | 命令 |
---|---|---|
1 | 创建会话 | tmux new -s sessionName |
2 | shell终端查看 tmux 会话列表 | tmux ls |
3 | 虚拟会话终端查看 tmux 会话列表 | ctrl+b s |
4 | shell终端进入会话 | tmux a -t sessionName |
5 | 退出会话 | ctrl+b d |
6 | 销毁会话 | tmux kill-session -t sessionName |
7 | shell终端重命名会话 | tmux rename -t old_session_name new_session_name |
8 | 虚拟终端重命名会话 | ctrl + b $ ,设置完敲回车即可保存 |
下面使用 tmux
将步骤1的程序进行后台运行,并将输出结果写入到txt文件。( -u
参数比较关键,代表程序不启用缓存,也就是把输出直接放到目标文件中,否则容易出现看不到数据的情况)
退出 tmux
并关闭 shell终端窗口,然后再次打开 shell终端窗口
由上图可以看到,python程序在持续运行,tmux
挺强大,学习了。
至此,本次任务学习完毕。