爬虫基础
wzm-remon
这个作者很懒,什么都没留下…
展开
-
Python中TCP和UDP网络编程
网络编程TCP编程TCP协议提供可靠传输的服务,一种面向连接的通信方式。在服务端,不断进行的步骤有:创建Socket,绑定本地IP与端口;监听进入循环,不断接收客户端的连接请求;接收传来的数据,发送给客户端数据;关闭Socket;在客户端,不断进行的步骤有:创建Socket,连接服务端;发送数据以及接收数据;关闭Socket;服务端:# -*- coding: utf-8 -*-import socketimport threadingimport time#原创 2020-07-20 17:31:25 · 225 阅读 · 0 评论 -
Python上协程与分布式进程
协程协程(coroutine),又称微线程,纤程,一种用户级的轻量级线程。对于协程来说,拥有自己的寄存器上下文和栈,在协程调用切换时,将寄存器上下文和栈保存到其他地方,在之后切换回来的时候,恢复之前保存的寄存器上下文和栈。也就是说协程能够保留上一次调用的状态。与线程的不同在于线程是系统级别的,由操作系统调度;协程是程序级别的,由程序员在程序中根据需要自行调度。使用yield实现协程# -*- coding: utf-8 -*-def run_func(): print("函数开始执行"原创 2020-07-08 20:40:07 · 279 阅读 · 0 评论 -
Python上多线程
多线程之前对多进程的知识的总结:多进程线程比进程单位更小,线程是一个基本的CPU执行单元。线程必须在某个进程中执行,一个进程可包含多个线程,但是只能有一个主线程。在多线程中,共享同个地址空间、打开的文件等资源;在多进程中,共享物理内存、、磁盘、打印机等资源。其中,线程按照作用不同可分为主线程、子线程、守护线程(后台线程)以及前台线程等。在Python标准库中,提供的模块有thread和threading。其中,thread是低级模块,threading是高级模块,对thread进行了封装。使用th原创 2020-07-08 20:22:52 · 214 阅读 · 0 评论 -
你准备好“爬”了嘛(二)多进程
多进程使用os模块中的fork构造进程;fork()方法只适用于Linux/Unix系统,是一个非常常见的系统调用的方法。forn()方法调用一次,返回两次。该方法调用时,操作系统将当前进程即父进程进行了复制,即子进程,这两个进程完全相同。在父进程中,返回的是子进程的ID;在子进程中,返回的是永远是0。测试程序fork_process.py需要主要的是这个程序只能在LInux/Unix系统上运行,在Windows系统上会报错。但是在Windows上可以通过安装子系统运行。import os原创 2020-07-05 11:31:51 · 183 阅读 · 0 评论 -
你准备好“爬”了嘛?之(一)IO编程实践
文章目录IO编程IO编程实践批量文件统计文件批量重命名转换为可执行文件IO编程关于IO编程的基本在以前的博客中就有介绍,见 IO编程IO编程实践批量文件统计情形:在一个文件夹里,存在着某一部门的所有人员的报告,名称全部以序号-姓名的方式进行命名,那么有时需要统计这些已交人员的信息。files_excel.py文件则是将所有人员的信息存到excel表格中去,也包含存到txt文件中去的方法。假设在data文件夹中存在三个docx文件,需要统计文件信息然后将写入文件中。关键步骤有:获取data文件原创 2020-06-30 18:53:18 · 210 阅读 · 0 评论 -
你准备好“爬”了嘛?之(一)IO编程
IO编程文件读写打开文件可能初学者最先想到的就是怎么打开文件,这在编程语句中很简单,一句话的事。在Python中打开文件使用open函数。不妨看看open函数的原型:open(name[, mode[, buffering]])在上面的函数式中,参数分别表示:name: 一个包含了你要访问的文件名称的字符串值;mode:决定了打开文件的模式:只读,写入,追加等。所有可取值见如下的完全列表。这个参数是非强制的,默认文件访问模式为只读(r);buffering:如果 buffering 的原创 2020-06-24 23:23:13 · 157 阅读 · 0 评论