python基础爬虫——爬取html表格,带服务器

最新推荐文章于 2023-04-18 17:44:24 发布

pitiful dog

最新推荐文章于 2023-04-18 17:44:24 发布

阅读量530

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/felldeng/article/details/112727900

版权

本文介绍如何使用Python进行基础的网络爬虫，目标是爬取HTML表格中的学生信息。首先，通过创建一个服务器并放置文本数据students.txt，接着搭建服务器，展示数据。然后，编写客户端程序实现数据的抓取。最终，客户端运行成功，实现了HTML表格数据的爬取。

摘要由CSDN通过智能技术生成

不以物喜不以己悲
人生不能放弃
今天的学习目标是：爬取学生信息
1.服务器程序
先写文本数据例子，将文本数据students.txt放入当前文件夹

No,Name,Gender,Age
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19
1001,张三,男,20
1002,李四,女,19

然后搭建服务器：

from flask import Flask, request
import os

app = Flask(__name__)


@app.route('/')
def show():
    if os.path.exists('students.txt'):
        st = "<h3>学生信息表</h3>"
        st = st + "<table border='1' width='300'>"
        fobj = open('students.txt', "rt", encoding="utf-8")
        while True:
            # 读取一行，去除尾部‘\n’换行符
            s = fobj.readline().strip('\n')
            # 如果读到文件尾部就退出
            if s == '':
                break
            s = s.split(',')
            st = st + '<tr>'
            # 把各个数据组织在<td>...</td>的单元中
            for i in range(len(s)):
                st = st + "<td>" + s[i] + "</td>"
            # 完成一行
            st = st + "</tr>"
        fobj.close()
        st = st + "</table>"
        return st

if __name__=="__main__":
    app.run(debug=True)

服务器运行后进入浏览器，访问服务器后，会返回刚才搭建的数据，
浏览器运行界面：

在这里插入图片描述

相对应的html页面如下：

<h3>学生信息表</h3>
<table border='1' width='300'>
    <tr>

最低0.47元/天解锁文章

pitiful dog

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录