爬虫开发(1)——文件操作

最新推荐文章于 2023-07-05 16:24:21 发布

u012587295

最新推荐文章于 2023-07-05 16:24:21 发布

阅读量214

点赞数

分类专栏： python爬虫文章标签：爬虫 python 文件操作

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

写在前面：应专业课程要求，曾使用python在链家网爬取过一万四千多条数据(爬了几个小时…在没有反爬虫策略的情况下-_-||)。
突发兴致，准备深入研究研究python爬虫，拟定了几个阶段，首先就从啃书开始吧。所用书籍是《Python爬虫开发与项目实战》，范传辉老师编著，希望能坚持下去。

文件打开、操作、关闭
f = open(filename, mode=, buffering=, encoding=, errors=, newline=, closefd=)
f.read(): 将所有内容读入内存
f.read(size): 一次最多读取size个字节
f.readline(): 读一行
f.readlines(): 读所有内容，以一行一行的形式返回一个列表
f.write(string)
f.close()

*为了避免IO异常，推荐使用with语句，常见文件打开，关闭语句如下：
with open(‘/Users/dmzxwcy0112/Desktop/test.txt’,’r+’) as file:
str = file.readlines()

OS、shutil模块（filepath 字符串类型、file 文件类型）
os.getcwd(): 获得python脚本的目录路径
os.listdir(“C:\”): 返回指定目录下的所有文件和目录名（列表形式）
os.remove(filepath): 删除文件
os.removedirs(”d:\python”)、os.rmdir(”d:\python”): 删除（多个）空目录
os.path.isfile(filepath): 判断该路径是否为一个文件
os.path.isdir(filepath)
os.path.isabs(filepath):判断该路径是否为绝对路径
os.path.exists(filepath):判断该路径是否存在
os.path.split(filepath):分割一个路径，返回元组类型(filedir，filename)
*仅仅是以 “PATH” 中最后一个 ‘/’ 作为分隔符，分隔后，将索引为0的视为目录（路径），将索引为1的视为文件名
os.path.splitext():分割一个路径，返回元祖类型，如(‘/Users/dmzxwcy0112/Desktop/test’，’.txt’)
os.path.dirname(filepath):获取路径名
os.path.basename(filepath):获取文件名
os.getenv()、os.putenv():读取和设置环境变量
os.rename(oldname,newname):重命名文件
os.mkdir(dir):创建目录
os.stat(file):后取文件属性
os.chmod(file)、os.path.getsize(filename)

shutil.copytree(olddirname,newdirname):参数只能是目录，且newdirname必须不存在
shutil.copyfile(oldfilename,newfilename):oldfilename只能是文件，newfile可文件可目录
shutil.move(oldname,newname)
shutil.rmtree(”d:\python”): 删除目录（无论空与否）

u012587295

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫开发(1)——文件操作

写在前面：应专业课程要求，曾使用python在链家网爬取过一万四千多条数据(爬了几个小时…在没有反爬虫策略的情况下-_-||)。突发兴致，准备深入研究研究python爬虫，拟定了几个阶段，首先就从啃书开始吧。所用书籍是《Python爬虫开发与项目实战》，范传辉老师编著，希望能坚持下去。文件打开、操作、关闭 f = open(filename, mode=, buffering=, enc...
复制链接

扫一扫