爬虫-爬取中国诗歌网中中国好诗栏目 - 统计词汇出现频数 - 副本

该代码爬虫从中国诗歌网的中国好诗栏目抓取诗词,利用requests、re、BeautifulSoup库获取信息,并借助os和jieba库统计词汇频率,存储于txt和excel文件。爬取10页内容,每页约10首诗,通过正则表达式与BeautifulSoup解析HTML,jieba进行词汇分词和频率统计。
摘要由CSDN通过智能技术生成

功能:

我们的代码爬虫的功能是爬取中国诗歌网中中国好诗栏目中的所以诗词并统计词汇出现频数,来分析当下诗歌中的高频词汇背后的意义。

通过使用requests库、re库、BeautifulSoup库来实现中国诗歌网每日好诗中诗歌名称与诗歌内容。之后通过os库、jieba库来实现统计词汇出现频数并分别存储到txt与excel中。

代码运行之后,会出现三个文件,分别是meirihaoshi.txt、词汇频率.txt、词汇频率.xlsx。其中meirihaoshi.txt存储诗歌网中每日好诗栏目中所有的诗歌内容。词汇频率.txt与词汇频率.xlsx存储着jieba库处理过后的词汇频率数据,其中txt作为备份。

#爬虫-爬取中国诗歌网中中国好诗栏目
#并用jieba库统计现代诗中词汇的出现频率

import requests
import re
from bs4 import BeautifulSoup
import os
import jieba
from openpyxl import Workbook

if __name__=="__main__":
    #创建并打开meirihaoshi.txt文件
    fp=open('./meirihaoshi.txt','w',encoding='utf-8')
    #获取多页的网址,并存入列表
    url='https://www.zgshige.com/sgzk/'
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值