功能:
我们的代码爬虫的功能是爬取中国诗歌网中中国好诗栏目中的所以诗词并统计词汇出现频数,来分析当下诗歌中的高频词汇背后的意义。
通过使用requests库、re库、BeautifulSoup库来实现中国诗歌网每日好诗中诗歌名称与诗歌内容。之后通过os库、jieba库来实现统计词汇出现频数并分别存储到txt与excel中。
代码运行之后,会出现三个文件,分别是meirihaoshi.txt、词汇频率.txt、词汇频率.xlsx。其中meirihaoshi.txt存储诗歌网中每日好诗栏目中所有的诗歌内容。词汇频率.txt与词汇频率.xlsx存储着jieba库处理过后的词汇频率数据,其中txt作为备份。
#爬虫-爬取中国诗歌网中中国好诗栏目
#并用jieba库统计现代诗中词汇的出现频率
import requests
import re
from bs4 import BeautifulSoup
import os
import jieba
from openpyxl import Workbook
if __name__=="__main__":
#创建并打开meirihaoshi.txt文件
fp=open('./meirihaoshi.txt','w',encoding='utf-8')
#获取多页的网址,并存入列表
url='https://www.zgshige.com/sgzk/'