背景:
文笔不够,技术来凑。其实应该配合爬虫,把文章爬到本地,再批量分析,效果会更好。但是代理ip要钱,之前免费站点没了。所以先做了一个简陋版。
目录结构:
代码:
import re
import copy
import os
# ================================ 变量 ============================================
"""
公共变量
"""
#文件夹目录
path = "./doc"
#得到文件夹下的所有文件名称
files= os.listdir(path)
#key(按下面的分组,对应的关键字去收集)
keyList = [
['眼','眸','瞳','眼底'],
['