爬取汉字五行元素,并存入数据库

爬取汉字五行元素,并存入数据库

源码我放在了最后(嘿嘿),希望对你有用

1 实验目的

实现数据标题收集并可视化

2 实验任务

爬取汉字五行元素并选择角度实现可视化:
我选择的主题:可视化爬取数据中,字的笔画分布,用饼图可视化

3 实验环境

Python3.7+Anaconda3(spyder)

4 实验步骤

  1. 安装pyecharts库等可视化时需要的库

  2. 分析网页

  3. 通过分析网页结构标签,爬取每个字单独的网页网址,如图1,以及分析如何定位汉字模块,如图2
    在这里插入图片描述 图1
    图2
    图2

  4. 编写爬取网址的爬虫代码,在此只爬取一个元素的部分汉字的网址,如果想爬取每个元素的所有汉字,以一样的方式,收集网址,原理一样,收集网址代码如图3,循环网址爬取汉字如图4:
    在这里插入图片描述

图3
在这里插入图片描述

图4
5. 运行代码,结果如图5 数据库结果如图6
在这里插入图片描述

图5
在这里插入图片描述

图6
6. 将数据导出为csv文件,sql文件,(自己擅长的格式),方便后面的数据分析,如图7
在这里插入图片描述

图7
7. 编写可视化代码,在此我使用饼图角度如图8
在这里插入图片描述

图8
8. 将程序文件和数据文件放到一个文件夹下,如图9
在这里插入图片描述

图9
9. 运行代码,生成结果,如图10,11
在这里插入图片描述

图10
在这里插入图片描述

图11
10 源码
爬虫源码:

from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import urllib.request
import sqlite3
import requests
import time

class HanziDB:
    def openDB(self):
        self.con=sqlite3.connect("hanzi.db")
        self.cursor=self.con.cursor()
        try:
            self.cursor.execute('''create table hanzi (name varchar(16),read varchar(16),number varchar(16),bu varchar(16),wu varchar(16),time varchar(24),primary key (name))'''
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值