python——爬虫学习day(3)

最新推荐文章于 2022-08-03 16:36:46 发布

专注嗑糖一百年

最新推荐文章于 2022-08-03 16:36:46 发布

阅读量210

点赞数

分类专栏： python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/L946494/article/details/84893606

版权

python 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

爬虫

7 篇文章 0 订阅

订阅专栏

之前想着学习爬虫方面的知识，所以在一开始的时候学习做了一个小程序，提取新闻网站的新闻标题。现在要从头开始，学一点基础。以下内容是根据《Python爬虫开发与项目实战》一书学习整理的，如果内容涉及到侵权等问题，请联系本人删稿。

如果内容知识点有问题，也请联系本人，及时改正。

一、文件的读写

1、读：with open ('e:\text\test.txt','r') as f:

print (f.read()) #采用这种方式打开文件十位了防止读取文件过程中出错，而不能进行f.close()

#读取一行内容：readline()

#读取所有内容并按行返回列表：readlines()

#将上述代码进行改进：

with open(''e:\text\test.txt','r'') as f:

for line in f.readlines():

print (line.strip())

写：with open ('e:\text\test.txt','w') as fw:

f.write('text')

2、在python中对文件和目录的操作经常用到os模块和shuti模块，下面整理一些操作文件和目录的常用方法：

》》》os.getcwd()：获得当前python脚本工作的目录路径

》》》os.listdir()：返回指定目录下的所有文件和目录名

》》》os.remove(filepath)：删除一个文件

》》》os.removedirs(filepath)：删除多个空目录

》》》os.path.isfile(filepath)：检验给出的路径是否是一个文件

》》》os.path.isdir(filepath)：检验给出的路径是否是一个目录

》》》os.path.isabs()：判断是否是绝对路径

》》》os.path.exists()：检验路径是否存在

》》》os.path.split()：分离一个路径的目录名和文件名，例：os.path.split('e:\text\test.txt'),返回结果是一个元组：('e:\text','test.txt')

》》》os.path.splitext()：分离扩展名，例：os.path.splitext('e:\text\test.txt')，返回结果是一个元组：('e:\text\test','.txt')

》》》os.path.dirname(filename)：获取路径名

》》》os.pathbasename(filename)：获取文件名

》》》os.getenv() os.putenv()：读取和设置环境变量

》》》os.linesep()：给出当前平台使用的终止符，win----‘\r\n’, Linux-----'\n' Mac------'\r'

》》》os.name()：指示当前使用的平台

》》》os.rename(old,new)：重命名文件和目录

》》》os.makedirs('d:\python\test')：创建多级目录

》》》os.mkdir('test')：创建单个目录

》》》os.stat(file)：获取文件属性

》》》os.chmod(file)：修改文件权限与时间戳

》》》os.path.getsize(filename)：获取文件大小

》》》shutil.copytree('olddir','newdir')：复制文件夹，olddir和newdir都只能是目录，并且newdir必须不存在

》》》shutil.copyfile('oldfile','newfile')：复制文件，olddir和newdir都只能是文件

》》》shutil.copy('oldfile','newfile')：复制文件，oldfile只能是文件，newfile可以是文件也可以是目标目录

》》》shutil.move('oldpod','newpos')：移动文件（目录）

》》》os.rmdir('dir')：删除目录，只能删除空目录

》》》shutil.rmtree('dir')：删除目录，空目录，有内容的目录都可以删除

二、系列化操作

程序在运行时，所有的变量都是在内存中，例如在程序中声明一个dict对象，里面存储着爬取的页面的链接，页面的标题，页面的摘要等信息。

d = dict(url = 'index.html',title = '首页',content = '首页')

在程序的运行过程中，爬取的页面的链接会不断变化，比如把url改成了second.html，但是程序一结束或意外中断，程序中的内存变量都会被操作系统进行回收。如果没有吧修改过的url存储起来，下次运行程序的时候，url被初始化为index.html,又是从首页开始，这是不愿看到的，所以把内存中的变量变成可存储或可传输的过程，就是序列化。将内存中的变量序列化之后，可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上，实现程序状态的保存与共享。反过来，把变量内容从序列化的对象重新读取到内存，称为反序列化。

在python中提供了俩个模块：cPickle和pickle来实现序列化，前者是由c语言编写的，效率比后者高很多，但是俩个模块的功能是一样的。一般是先导入cPickle模块，如果此模块不存在，在导入pickle模块。示例：

try:

import cPickle as pickle:

except ImportError:

import pickle

pickle实现序列化主要使用的是dumps方法或dump方法。dumps方法可以将任意对象序列化成一个str，然后可以将这个str写入文件进行保存。示例：

d = dict(url = 'index.html',title = '首页',content = '首页')

pickle.dumps(d)

如果使用dump方法，可以将序列化后的对象直接写入文件中：

with open(r"dump.txt","wb+") as f:
    pickle.dump(d,f)

pickle实现序列化使用的是loads方法或load方法。把序列化后的文件从磁盘上读取为一个str，然后使用loads方法将这个str反序列化为对象，或者直接使用load方法将文件直接反序列化为对象：

with open('json.pkl', 'rb') as f:
    aa = pickle.load(f)
    print(aa)

通过反序列化，存储为文件的dict对象，又重新恢复出来，但是这个变量和原变量没有什么关系，只是内容一样。

三、进程和线程

提高爬虫的效率和打造分布式爬虫，都离不开进程和线程。

1、多进程

python实现多进程的方式主要有俩种，一种是使用os模块中的fork方法，一种是使用multiprocessing模块。这俩种方式的区别在于前者仅适用于Unix/Linux操作系统，对windows不支持，后者则是跨平台的实现方法。

a、使用os模块中的fork方法实现多进程

Python的os模块封装了常见的系统调用，其中就有fork方法。fork方法来自于Unix/Linux操作系统中提供的fork系统调用，调用一次，返回俩次。分别为子进程和父进程。子进程永远返回0，父进程中返回的是子进程的ID。

b、使用multiprocessing模块创建多进程

multiprocessing模块提供了一个Process类描述一个进程对象。创建子进程时，只需要传入一个执行函数和函数的参数，即可完成一个Process实例的创建，用start()方法启动进程，用join()方法实现进程的同步。

#coding=utf-8

import os
from multiprocessing import Process

#子进程要执行的代码
def run_proc(name):
    print ('child process %s (%s) Running....' %  (name,os.getpid()))

if __name__ == '__main__':
    print ('Parent process %s.' % os.getpid())
    for i in range(5):
        p = Process(target = run_proc,args=(str(i),))
        print ('Process eill start')
        p.start()
    p.join()
    print ('Process end')

专注嗑糖一百年

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python——爬虫学习day(3)

之前想着学习爬虫方面的知识，所以在一开始的时候学习做了一个小程序，提取新闻网站的新闻标题。现在要从头开始，学一点基础。以下内容是根据《Python爬虫开发与项目实战》一书学习整理的，如果内容涉及到侵权等问题，请联系本人删稿。如果内容知识点有问题，也请联系本人，及时改正。一、文件的读写 1、读：with open ('e:\text\test.txt','r') as f:...
复制链接

扫一扫

专栏目录