Python编写自己的web服务器,实现多任务并发访问服务器(进程,线程,协程,长链接,短链接)

关于编写web服务器的前期工作,点此链接

多进程操作:

# -*-UTF-8-*-
# -lv wq --
# 多进程
import multiprocessing
import socket


def service_client(new_socket):
    request = new_socket.recv(1024).decode("utf-8")
    # print(request)
    # print("#"*50)
    # print(type(request))
    request_lines = request.split(" ", maxsplit=2)
    file_name = request_lines[1]
    if file_name == "/":
        file_name = "/index.html"

    try:
        f = open("../day01/html" + file_name, 'rb')
    except:
        response_head = "HTTP/1.1 404 NOT FOUND\r\n"
        response_head += '\r\n'
        response_body = "-----file not found ------".encode("utf-8")
        new_socket.send(response_head.encode("utf-8"))  # 类型为字符串
        new_socket.send(response_body)  # 类型为二进制

    else:
        response_body = f.read()
        f.close()
        response_head = "HTTP/1.1 200 OK\r\n"
        # 分割http响应头和响应body
        response_head += '\r\n'
        new_socket.send(response_head.encode("utf-8"))  # 类型为字符串
        new_socket.send(response_body)  # 类型为二进制

    new_socket.close()


def main():
    # 1.创建套接字
    tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    tcp_server_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
    # 2.绑定
    tcp_server_socket.bind(("", 9999))
    # 3.监听套接字
    tcp_server_socket.listen(128)
    while True:
        # 4.等待连接
        new_socket, client_addr = tcp_server_socket.accept()
        p = multiprocessing.Process(target=service_client,args=(new_socket,))
        p.start()
        #service_client(new_socket)
        new_socket.close()
    # 关闭监听套接字
    tcp_server_socket.close()


if __name__ == '__main__':
    main()

多线程操作:

# -*-UTF-8-*-
# -lv wq --
# 多线程
import socket
import threading


def service_client(new_socket):
    request = new_socket.recv(1024).decode("utf-8")
    # print(request)
    # print("#"*50)
    # print(type(request))
    try:
        request_lines = request.split(" ", maxsplit=2)
        file_name = request_lines[1]
        if file_name == "/":
            file_name = "/index.html"

        try:
            f = open("../day01/html" + file_name, 'rb')
        except:
            response_head = "HTTP/1.1 404 NOT FOUND\r\n"
            response_head += '\r\n'
            response_body = "-----file not found ------".encode("utf-8")
            new_socket.send(response_head.encode("utf-8"))  # 类型为字符串
            new_socket.send(response_body)  # 类型为二进制

        else:
            response_body = f.read()
            f.close()
            response_head = "HTTP/1.1 200 OK\r\n"
            # 分割http响应头和响应body
            response_head += '\r\n'
            new_socket.send(response_head.encode("utf-8"))  # 类型为字符串
            new_socket.send(response_body)  # 类型为二进制
    except IndexError:
        pass
    new_socket.close()


def main():
    # 1.创建套接字
    tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    tcp_server_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
    # 2.绑定
    tcp_server_socket.bind(("", 9999))
    # 3.监听套接字
    tcp_server_socket.listen(128)
    while True:
        # 4.等待连接
        new_socket, client_addr = tcp_server_socket.accept()
        p = threading.Thread(target=service_client,args=(new_socket,))
        p.start()
        #service_client(new_socket)
    # 关闭监听套接字
    tcp_server_socket.close()


if __name__ == '__main__':
    main()

并发协程操作:

import socket
# 单进程非阻塞并发
# 协程

# 1.创建套接字
tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
tcp_server_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
# 2.绑定
tcp_server_socket.bind(("", 9999))
# 3.监听套接字
tcp_server_socket.listen(128)
tcp_server_socket.setblocking(False)  # 设置套接字为非阻塞的方式
client_socket_list = list()

while True:
    # 4.等待连接
    try:
        new_socket, client_addr = tcp_server_socket.accept()
    except Exception as ret:
        print("---没有新的客户端到来---")
    else:
        print("---来了个新的客户端---")
        new_socket.setblocking(False)
        client_socket_list.append(new_socket)

    for client_socket in client_socket_list:
        try:
            recv_data = client_socket.recv(1024)
        except Exception as ret:
            print(ret)
            print("---这个客户端没有发送数据---")
        else:
            print("---没有异常的---")
            print(recv_data)
            if recv_data:
                # 对方发送过来数据
                print("客户端发送过来了数据")
            else:
                # 对方调用close,导致recv的返回
                client_socket.close()
                client_socket_list.remove(client_socket)
                print("--客户端已经关闭--")

以上都是短链接的连接方式,而下面这种发送是属于长链接,用于提高多用户并发访问的速率:

# 非阻塞长链接
import socket
import re

def service_client(new_socket, recv_data):
    request = recv_data.decode("utf-8")
    # print(request)
    # print("#"*50)
    # print(type(request))
    request_lines = request.split(" ", maxsplit=2)
    file_name = request_lines[1]
    if file_name == "/":
        file_name = "/index.html"

    try:
        f = open("../day01/html" + file_name, 'rb')
    except:
        response_head = "HTTP/1.1 404 NOT FOUND\r\n"
        response_head += '\r\n'
        response_body = "-----file not found ------".encode("utf-8")
        new_socket.send(response_head.encode("utf-8"))  # 类型为字符串
        new_socket.send(response_body)  # 类型为二进制

    else:
        response_body = f.read()
        f.close()
        response_head = "HTTP/1.1 200 OK\r\n"
        response_head += "Content-Length: %d\r\n" % len(response_body)
        # 分割http响应头和响应body
        response_head += '\r\n'
        new_socket.send(response_head.encode("utf-8"))  # 类型为字符串
        new_socket.send(response_body)  # 类型为二进制

    # new_socket.close()

# 非阻塞协程
def main():
    # 1.创建套接字
    tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    tcp_server_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)
    # 2.绑定
    tcp_server_socket.bind(("", 9999))
    # 3.监听套接字
    tcp_server_socket.listen(128)
    tcp_server_socket.setblocking(False)  # 设置套接字为非阻塞的方式
    client_socket_list = list()

    while True:
        # 4.等待连接
        try:
            new_socket, client_addr = tcp_server_socket.accept()
        except Exception as ret:
            pass
        else:
            new_socket.setblocking(False)
            client_socket_list.append(new_socket)
        for client_socket in client_socket_list:
            try:
                recv_data = client_socket.recv(1024)
            except Exception as ret:
                pass
            else:
                if recv_data:
                    service_client(client_socket, recv_data)
                else:
                    client_socket.close()
                    client_socket_list.remove(client_socket)
    # 关闭监听套接字
    tcp_server_socket.close()


def read_html(file_path):
    file = open(file_path, 'rb')
    file_data = file.read()
    file.close()
    return file_data

if __name__ == '__main__':
    main()
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站服务器负责。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

写bug如流水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值