python 文件和文件夹的操作,以及一个小小的爬虫

转载 2015年03月13日 17:45:32

Python文件夹与文件的操作

 

最近在写的程序频繁地与文件操作打交道,这块比较弱,还好在百度上找到一篇不错的文章,这是原文传送门,我对原文稍做了些改动。

有关文件夹与文件的查找,删除等功能 在 os 模块中实现。使用时需先导入这个模块,

导入的方法是:

import os

一、取得当前目录

s = os.getcwd()

# s 中保存的是当前目录(即文件夹)

比如运行abc.py,那么输入该命令就会返回abc所在的文件夹位置。

举个简单例子,我们将abc.py放入A文件夹。并且希望不管将A文件夹放在硬盘的哪个位置,都可以在A文件夹内生成一个新文件夹。且文件夹的名字根据时间自动生成。

import os

import time

folder = time.strftime(r"%Y-%m-%d_%H-%M-%S",time.localtime())

os.makedirs(r'%s/%s'%(os.getcwd(),folder))

 

二、更改当前目录

os.chdir( "C:\\123")

#将当前目录设为 "C:\123", 相当于DOC命令的 CD C:\123   

#说明: 当指定的目录不存在时,引发异常。

异常类型:WindowsError

Linux下没去试,不知是哪种

 

三 将一个路径名分解为目录名和文件名两部分

fpath , fname = os.path.split( "你要分解的路径")

例如:

a, b = os.path.split( "c:\\123\\456\\test.txt" )

print a

print b

显示:

c:\123\456

test.txt

 

四   分解文件名的扩展名

fpathandname , fext = os.path.splitext( "你要分解的路径")

例如:

a, b = os.path.splitext( "c:\\123\\456\\test.txt" )

print a

print b

显示:

c:\123\456\test

.txt

 

五、判断一个路径( 目录或文件)是否存在

b = os.path.exists( "你要判断的路径")

返回值b: True 或 False

 

六、判断一个路径是否文件

b = os.path.isfile( "你要判断的路径")

返回值b: True 或 False

 

七、判断一个路径是否目录

b = os.path.isdir( "你要判断的路径")

返回值b: True 或 False

 

八、获取某目录中的文件及子目录的列表        

L = os.listdir( "你要判断的路径")

例如:

L = os.listdir( "c:/" )

print L

显示 :

['1.avi', '1.jpg', '1.txt', 'CONFIG.SYS', 'Inetpub', 'IO.SYS', 'KCBJGDJC', 'KCBJGDYB', 'KF_GSSY_JC', 'MSDOS.SYS', 'MSOCache', 'NTDETECT.COM', 'ntldr', 'pagefile.sys', 'PDOXUSRS.NET', 'Program Files', 'Python24', 'Python31', 'QQVideo.Cache', 'RECYCLER', 'System Volume Information', 'TDDOWNLOAD', 'test.txt', 'WINDOWS']

这里面既有文件也有子目录

1 获取某指定目录下的所有子目录的列表

def getDirList( p ):

        p = str( p )

        if p=="":

              return [ ]

        p = p.replace( "/","\\")

        if p[ -1] != "\\":

             p = p+"\\"

        a = os.listdir( p )

        b = [ x   for x in a if os.path.isdir( p + x ) ]

        return b

print   getDirList( "C:\\" )

结果:

['Documents and Settings', 'Downloads', 'HTdzh', 'KCBJGDJC', 'KCBJGDYB', 'KF_GSSY_JC', 'MSOCache', 'Program Files', 'Python24', 'Python31', 'QQVideo.Cache', 'RECYCLER', 'System Volume Information', 'TDDOWNLOAD', 'WINDOWS']

2 获取某指定目录下的所有文件的列表

def getFileList( p ):

        p = str( p )

        if p=="":

              return [ ]

        p = p.replace( "/","\\")

        if p[ -1] != "\\":

             p = p+"\\"

        a = os.listdir( p )

        b = [ x   for x in a if os.path.isfile( p + x ) ]

        return b

print   getFileList( "C:\\" )

结果:

['1.avi', '1.jpg', '1.txt', '123.txt', '12345.txt', '2.avi', 'a.py', 'AUTOEXEC.BAT', 'boot.ini', 'bootfont.bin', 'CONFIG.SYS', 'IO.SYS', 'MSDOS.SYS', 'NTDETECT.COM', 'ntldr', 'pagefile.sys', 'PDOXUSRS.NET', 'test.txt']

 

九、创建子目录

os.makedirs(   path )   # path 是"要创建的子目录"

例如:

os.makedirs(   "C:\\123\\456\\789")

调用有可能失败,可能的原因是:

(1) path 已存在时(不管是文件还是文件夹)

(2) 驱动器不存在

(3) 磁盘已满

(4)磁盘是只读的或没有写权限

十、删除子目录

os.rmdir( path )   # path: "要删除的子目录"

产生异常的可能原因:

(1) path 不存在

(2) path 子目录中有文件或下级子目录

(3) 没有操作权限或只读

测试该函数时,请自已先建立子目录。

十一、删除文件

os.remove(   filename )   # filename: "要删除的文件名"

产生异常的可能原因:

(1)   filename 不存在

(2) 对filename文件, 没有操作权限或只读。

十二、文件改名

os.name( oldfileName, newFilename)

产生异常的原因:

(1) oldfilename 旧文件名不存在

(2) newFilename 新文件已经存在时,此时,您需要先删除 newFilename 文件。

#!/usr/bin/python
#-*-coding:utf-8-*-

import urllib
import urllib2
import re
import time
import os

def GetHtml(url):
    request=urllib2.Request(url)
    response=urllib2.urlopen(request)
    html=response.read()
#    print html
    return html

def GetImgUrl(html):
    pat=re.compile(r'src="(.*?\.jpg)" alt')
    url_list=re.findall(pat,html)
    return url_list

def ImgLode(url_list):
    x=0
    os.chdir('/home/hand1234/class')#下载到制定文件夹下
    for imgurl in url_list:
        p=urllib.urlretrieve(imgurl,'%s.jpg' %  x))
        x+=1
        time.sleep(2)
  

url=raw_input("请输入网址:")
html=GetHtml(url)
url_list=GetImgUrl(html)
print ImgLode(url_list)

这个url可以是http://www.meizitu.com/





Python破解有道翻译爬虫

-
  • 1970年01月01日 08:00

python爬虫(爬取蜂鸟网图片)_创建文件夹

import requests,urllib,os from bs4 import BeautifulSoup ans = 1 for page in range(58,69): url ...
  • Alex_X_Jane
  • Alex_X_Jane
  • 2016-04-07 00:36:19
  • 1112

Python 爬虫 —— 文件及文件夹操作

0. 文件名、路径信息、拓展名等 #取文件后缀 >>> os.path.splitext("/root/a.py") ('/root/a', '.py') #取目录与文件名 >>> os.pa...
  • lanchunhui
  • lanchunhui
  • 2018-01-11 00:04:17
  • 174

windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息

windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息 scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息。关于pyth...
  • u013018721
  • u013018721
  • 2016-04-21 18:09:07
  • 3713

python写网络爬虫的环境搭建(windows完整版)

网上找了好多资料,都不全,通过资料的整理,包括自己的测试,终于把环境打好了,真是对于一个刚接触爬虫的人来说实属不易,现在分享给大家,若有不够详细之处,希望各位网友能补充。 第一步,下载python, ...
  • u011139117
  • u011139117
  • 2016-10-11 15:55:02
  • 4815

AQI 爬虫_windows版

系统:win10x64+python3.6 注意事项: webdriver特别是chromedriver的版本要与自己浏览器的版本一致。 time.sleep()是为了保证爬取成功,不然页面会一...
  • SONGYINGXU
  • SONGYINGXU
  • 2018-01-11 01:59:54
  • 98

python 文件和文件夹的操作,以及一个小小的爬虫

Python文件夹与文件的操作   最近在写的程序频繁地与文件操作打交道,这块比较弱,还好在百度上找到一篇不错的文章,这是原文传送门,我对原文稍做了些改动。 有关文件夹与文件的查找,删除等功...
  • seegroung
  • seegroung
  • 2015-03-13 17:45:32
  • 274

windows下搭建爬虫框架scrapy

摘要: 主要讲解在windows上搭建scrapy的步骤,该步骤已经在百度上搜索就是一大片的了,但是出于学习以及练习写博客的目的,我还是按照自己的思路写一遍。 最近开始使用python,然...
  • playStudy
  • playStudy
  • 2013-12-13 07:06:01
  • 53978

python爬虫环境搭建(windows)

一、下载安装python2.7并配置环境变量(64位)1、下载安装:1)进入python官网,下载python2.7 网址:https://www.python.org/  2)点击安装包,运行3)选...
  • qq_36370187
  • qq_36370187
  • 2018-03-30 21:49:42
  • 11

win10命令行进入文件夹的方法

win+R-运行-cmd 打开命令行窗口 输入盘符:     D:        进入D盘  命令行显示:  D:\> 继续输入 D:\> cd D:\test 进入test文件夹...
  • peade
  • peade
  • 2016-09-24 11:28:23
  • 12029
收藏助手
不良信息举报
您举报文章:python 文件和文件夹的操作,以及一个小小的爬虫
举报原因:
原因补充:

(最多只允许输入30个字)