写在前面:应专业课程要求,曾使用python在链家网爬取过一万四千多条数据(爬了几个小时…在没有反爬虫策略的情况下-_-||)。
突发兴致,准备深入研究研究python爬虫,拟定了几个阶段,首先就从啃书开始吧。所用书籍是《Python爬虫开发与项目实战》,范传辉老师编著,希望能坚持下去。
文件打开、操作、关闭
f = open(filename, mode=, buffering=, encoding=, errors=, newline=, closefd=)
f.read(): 将所有内容读入内存
f.read(size): 一次最多读取size个字节
f.readline(): 读一行
f.readlines(): 读所有内容,以一行一行的形式返回一个列表
f.write(string)
f.close()
*为了避免IO异常,推荐使用with语句,常见文件打开,关闭语句如下:
with open(‘/Users/dmzxwcy0112/Desktop/test.txt’,’r+’) as file:
str = file.readlines()
OS、shutil模块(filepath 字符串类型、file 文件类型)
os.getcwd(): 获得python脚本的目录路径
os.listdir(“C:\”): 返回指定目录下的所有文件和目录名(列表形式)
os.remove(filepath): 删除文件
os.removedirs(”d:\python”)、os.rmdir(”d:\python”): 删除(多个)空目录
os.path.isfile(filepath): 判断该路径是否为一个文件
os.path.isdir(filepath)
os.path.isabs(filepath):判断该路径是否为绝对路径
os.path.exists(filepath):判断该路径是否存在
os.path.split(filepath):分割一个路径,返回元组类型(filedir,filename)
*仅仅是以 “PATH” 中最后一个 ‘/’ 作为分隔符,分隔后,将索引为0的视为目录(路径),将索引为1的视为文件名
os.path.splitext():分割一个路径,返回元祖类型,如(‘/Users/dmzxwcy0112/Desktop/test’,’.txt’)
os.path.dirname(filepath):获取路径名
os.path.basename(filepath):获取文件名
os.getenv()、os.putenv():读取和设置环境变量
os.rename(oldname,newname):重命名文件
os.mkdir(dir):创建目录
os.stat(file):后取文件属性
os.chmod(file)、os.path.getsize(filename)
shutil.copytree(olddirname,newdirname):参数只能是目录,且newdirname必须不存在
shutil.copyfile(oldfilename,newfilename):oldfilename只能是文件,newfile可文件可目录
shutil.move(oldname,newname)
shutil.rmtree(”d:\python”): 删除目录(无论空与否)