python爬取美食数据根据人气可视化基于XPath的HTML解析器以及数据保存到csv

本文链接：https://blog.csdn.net/qq_22593423/article/details/131802990

python爬取美食数据根据人气可视化基于XPath的HTML解析器以及数据保存到csv

在这篇技术博客中，我将介绍如何从头开始构建一个基于XPath的HTML解析爬取到的美食数据并可视化，并将其应用于一个具体的例子。我亲自写的完整代码+csv数据链接已放，
https://download.csdn.net/download/qq_22593423/87998282

介绍

在Web开发中，我们经常需要从网页中提取有用的信息。而HTML是一种常见的数据格式，它包含了网页的结构和内容。为了从HTML中提取信息，我们需要使用一种解析器来解析HTML，并使用一些技术来定位我们感兴趣的元素。

在本文中，我们将采用XPath作为解析HTML的技术。XPath是一种用于在XML文档中定位节点的语言，同时也可以用于HTML解析。它提供了一种简洁而强大的方式来定位HTML元素，并提取其属性或文本。

解析HTML内容

让我们首先看一下代码中的parse_html函数。这个函数接受一个HTML内容作为参数，并利用XPath表达式从中提取有关食物数据的信息。下面是函数的具体实现：

import re
from lxml import etree

def parse_html(content):
    # 解析HTML
    html = etree.HTML(content)
    
    # 使用XPath定位菜名
    names = html.xpath('//*[@class="listtyle1"]/a/div/div/div[1]/strong/text()')
    
    # 使用XPath定位评论数和人气数
    comments_and_views = html.xpath('//*[@class="listtyle1"]/a/div/div/div[1]/span/text()')
    
    # 使用正则表达式提取评论数和人气数
    comments, views = [], []
    for item in comments_and_views:
        match = re.search(r'(\d+)\s+评论\s+(\d+)\s+人气', item)
        if match:
            comments.append(int(match.group(1)))
            views.append(int(match.group(2)))
        else:
            comments.append(None)
            views.append(None)
    
    # 使用XPath定位发布者
    names1 = html.xpath('//*[@class="listtyle1"]/a/div/div/div[1]/em/text()')
    
    # 使用XPath定位图片链接
    images = html.xpath('//*[@class="listtyle1"]/a/img/@src')
    
    # 将所有信息打包成元组
    return zip(names, images, views, comments, names1)

在这个函数中，我们首先使用etree.HTML函数将HTML内容解析成一个可操作的对象。然后，利用XPath表达式定位到我们感兴趣的元素，并提取相关的数据。

对于菜名、评论数和人气数，我们使用xpath函数来定位相应的元素，并使用text方法来提取其文本内容。

对于评论数和人气数，我们使用正则表达式来提取其中的数字，并将其转换成整数类型。如果无法匹配到数字，则将其设为None。

最后，我们使用zip函数将所有的信息打包成一个元组，并返回结果。

保存数据到CSV文件

接下来，让我们看一下代码中的save_data函数。这个函数接受一个包含食物数据的可迭代对象，并将其保存到一个CSV文件中。下面是函数的具体实现：

import csv

def save_data(foods):
    # 打开CSV文件，使用追加模式写入数据，并指定编码和换行符
    with open('foods.csv', mode='a', encoding='utf-8-sig', newline='') as stream:
        writer = csv.writer(stream)
        
        # 写入表头
        writer.writerow([
            '菜名',
            '人气',
            '评论',
            '发布者',
            '图片',
        ])
        
        # 写入数据
        for name, image, view, comment, name1 in foods:
            writer.writerow([
                name,
                view,
                comment,
                name1,
                image,
            ])