爬取汉字五行元素,并存入数据库_汉字五行属性 python库-CSDN博客

本文链接：https://blog.csdn.net/qq_50937686/article/details/109955736

该博客介绍了如何爬取汉字的五行元素并将其存储到数据库中，然后使用Python的pyecharts库进行数据可视化，具体包括爬虫的编写、数据的收集与存储以及饼图的绘制展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取汉字五行元素,并存入数据库

源码我放在了最后(嘿嘿),希望对你有用

1 实验目的

实现数据标题收集并可视化

2 实验任务

爬取汉字五行元素并选择角度实现可视化:
我选择的主题:可视化爬取数据中,字的笔画分布,用饼图可视化

3 实验环境

Python3.7+Anaconda3(spyder)

4 实验步骤

安装pyecharts库等可视化时需要的库
分析网页
通过分析网页结构标签,爬取每个字单独的网页网址,如图1,以及分析如何定位汉字模块,如图2
图1

图2
编写爬取网址的爬虫代码,在此只爬取一个元素的部分汉字的网址,如果想爬取每个元素的所有汉字,以一样的方式,收集网址,原理一样,收集网址代码如图3,循环网址爬取汉字如图4:

图3
在这里插入图片描述

图4
5. 运行代码,结果如图5 数据库结果如图6
在这里插入图片描述

图5
在这里插入图片描述

图6
6. 将数据导出为csv文件,sql文件,(自己擅长的格式),方便后面的数据分析,如图7
在这里插入图片描述

图7
7. 编写可视化代码,在此我使用饼图角度如图8
在这里插入图片描述

图8
8. 将程序文件和数据文件放到一个文件夹下,如图9
在这里插入图片描述

图9
9. 运行代码,生成结果,如图10,11
在这里插入图片描述

图10
在这里插入图片描述

图11
10 源码
爬虫源码:

from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import urllib.request
import sqlite3
import requests
import time

class HanziDB:
    def openDB(self):
        self.con=sqlite3.connect("hanzi.db")
        self.cursor=self.con.cursor()
        try:
            self.cursor.execute('''create table hanzi (name varchar(16),read varchar(16),number varchar(16),bu varchar(16),wu varchar(16),time varchar(24),primary key (name))''')
        except:
            self.cursor.execute("delete from hanzi")
    
    def closeDB(self):
        self.con.commit