爬虫爬取知乎评论并利用flask框架做简单的可视化

最新推荐文章于 2024-08-28 08:57:25 发布

不想找bug

最新推荐文章于 2024-08-28 08:57:25 发布

阅读量2.6k

点赞数 5

分类专栏：知乎网页爬取文章标签： python 爬虫开发语言 flask pycharm

本文链接：https://blog.csdn.net/m0_45852661/article/details/121888039

版权

本文介绍了如何使用Python爬虫抓取知乎评论，提取关键字并按点赞数排序，存储到Excel和数据库中。接着通过Flask框架创建网页进行数据可视化展示，包括index和look两个页面。项目允许输入知乎URL来爬取不同页面的数据，同时讨论了项目可扩展性，如增加数据摘取和页面美化。

摘要由CSDN通过智能技术生成

学完一点简单的爬虫技术后，直接开始实践…
将知乎的某个评论内容爬取下来，取出里面的关键字，并按照点赞数排序，形成一个表单，点击查看，可以看到原来的内容，比如下面这个网页：
python能做那些有趣还很酷的事

我们发现右边的下拉条是拉不到底的，而且打开开发者模式，发现拉一点，他就加载一点，我们需要循环拉到底
，然后获取整个网页的HTML内容在这里插入图片描述
在进行代码编译前需要根据自己浏览器的版本，比如我的谷歌在搜索框输入：chrome://version/
出现：
Google Chrome 96.0.4664.93 (正式版本) （64 位） (cohort: Stable)
我的就是96的
下载地址：http://chromedriver.storage.googleapis.com/index.html
选择符合自己的版本和系统的压缩包，解压后放到项目文件目录下
在这里插入图片描述
第一步：获取网页HTML内容
需要导入的库：

from selenium import webdriver   # 控制滚动条
from time import sleep           # 时间控制
from bs4 import BeautifulSoup    # 网页解析 获取数据

代码

# 获取网页HTML内容
def gethtml(url):
    driver = webdriver.Chrome()               # 初始化一个浏览器
    driver.maximize_window()                  # 设置窗口最大化
    driver.get(url)                           # 打开网页
    driver.refresh()                          # 刷新一下（如果不刷新，在下面循环的时候到最底下就会直接跳出）
    temp_h = 0                                # 设置一个高度为 0
    js = "var q=document.documentElement.scrollTop=100000"
    driver.execute_script(js)                 # 执行上一行的js语句，直接将滚动条下拉到最底下
    sleep(3)                                  # 等待三秒，向远程
    count = 100
    while count > 0:                          # 这里设置的循环一百次，想爬取完全可以改为True
        count -= 1
        driver.execute_script("window.scrollBy(0,4000)")    # 循环向下拉去4000个单位，可以按照自己的速度设置快慢
        sleep(3)
        check_h = driver.execute_script("return document.documentElement.scrollTop;")   # 获取当前滑动条的位置
        if check_h == temp_h:
            sleep(3)                            # 如果相等，等待3秒网速加载
            check_h = driver.execute_script("return document.documentElement.scrollTop;")
            if check_h == temp_h:
                break                           # 如果还相等，说明滑动条已经跳到下，评论全部加载完成，跳出循环
        temp_h = check_h                        # 将获取的高度设置为初始高度
    html = BeautifulSoup(driver.page_source, features="html.parser")    # 使用解析器，解析获取的HTML内容
    driver.close()                              # 关闭浏览器
    return html

第二步：解析内容
需要导入的库：

import jieba                     # 分解词汇
import re                        # 正则表达式 进行文件匹配
import os                        # 创建目录
import requests                  # 下载图片

代码：

# 解析网页数据
def getData(baseurl, headers):
    findAgree = re.compile(r'<button class="Button Button--plain" type="button">(.*?) 人赞同了该回答</button>')      # 查找点赞人数的正则表达式
    findContent = re.compile(r'<p data-pid=".*?">(.*?)</p>|<img class="origin_image zh-lightbox-thumb lazy" data-actualsrc="(.*?)"', re.S)
                                                           # 查找item文本内容和图片，里面的超链接，代码，和列表等内容也可以创建正则表达式筛选出来，我就没写了
    data = []                                              # 用来存所有解析好的数据
    html = gethtml(baseurl)                                # 调用获取上一步获取html代码的函数
    if os.path.exists("image"):
        shutil.rmtree("image")
    os.mkdir("image")                                      # 创建一个image文件夹，存爬取的图片，如果已经存在，就删除
    for item in html.find_all('div', class_="List-item"):  # 解析每一条，div里面class="List-item"的数据
        datalist = []                                      # 用来存每一条解析完的数据
        item = str(item)                                   # 将item改为字符串格式
        agree = re.findall(findAgree, item)                # 点赞人数更改格式
        if not agree:                                      # 如果点赞人数列表为空就跳出（那是因为我爬取了几次发现最后一次的点赞人数都为空，会报错）
            break
        temp = agree[0].replace(",", "")                   # 去掉数字里面的","
        if int(temp) < 5:
            continue                                       # 点赞数小于5 表示不是我们感兴趣的数据