python基础爬虫——爬取html表格,带服务器

本文介绍如何使用Python进行基础的网络爬虫,目标是爬取HTML表格中的学生信息。首先,通过创建一个服务器并放置文本数据students.txt,接着搭建服务器,展示数据。然后,编写客户端程序实现数据的抓取。最终,客户端运行成功,实现了HTML表格数据的爬取。
摘要由CSDN通过智能技术生成

不以物喜不以己悲
人生不能放弃
今天的学习目标是:爬取学生信息
1.服务器程序
先写文本数据例子,将文本数据students.txt放入当前文件夹

No,Name,Gender,Age
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19

然后搭建服务器:

from flask import Flask, request
import os

app = Flask(__name__)


@app.route('/')
def show():
    if os.path.exists('students.txt'):
        st = "<h3>学生信息表</h3>"
        st = st + "<table border='1' width='300'>"
        fobj = open('students.txt', "rt", encoding="utf-8")
        while True:
            # 读取一行,去除尾部‘\n’换行符
            s = fobj.readline().strip('\n')
            # 如果读到文件尾部就退出
            if s == '':
                break
            s = s.split(',')
            st = st + '<tr>'
            # 把各个数据组织在<td>...</td>的单元中
            for i in range(len(s)):
                st = st + "<td>" + s[i] + "</td>"
            # 完成一行
            st = st + "</tr>"
        fobj.close()
        st = st + "</table>"
        return st

if __name__=="__main__":
    app.run(debug=True)

服务器运行后进入浏览器,访问服务器后,会返回刚才搭建的数据,
浏览器运行界面:

在这里插入图片描述

相对应的html页面如下:

<h3>学生信息表</h3>
<table border='1' width='300'>
    <tr>
        
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值