通过的字典类型将一篇存放在文本文件中英文文章中的所有单词出现的次数进行统计(下面的程序只支持英文,因为汉语会牵扯到语义等问题,还有个问题是统计出来的大多是冠词,或者是情态动词,要想真正用这种思想来获取文章大意还需进一步优化,但是这仍然是获取文章大意的一种不错的思路),并绘制柱状统计图:
# wordCount.py
# 统计一篇文章中各种单词出现的频率,并且输出频率最高的前十个,并绘制柱状图
import turtle
#设置全局变量
count = 10 #词频显示的个数
data = [] #创建一个列表 记录单词词频数组 作为y轴数据
words = [] #创建words列表,几率出现的词组 作为x轴数据
yscale = 6 #y轴显示放大倍数 可以根据词频数量进行适当调节
xscale = 30 #x轴显示放大倍数 可以根据count数量进行调节
#绘制柱状图
#从point1点到point2点绘制线段
def drawLine(t,x1,y1,x2,y2):
t.penup()
t.goto(x1,y1)
t.pendown()
t.goto(x2,y2)
#在坐标(x,y)处写汉字
def drawText(t,x,y,text):
t.penup()
t.goto(x,y)
t.pendown()
t.write(text)
#绘制柱体:
def drawRectangle(t,x,y):
x = x*xscale
y = y*yscale
drawLine(t,x-5,0,x-5,y)
drawLine(t,x-5,y,x+5,y)
drawLine(t,x+5,y,x+5,0)
#批量绘制柱体
def drawBar(t):
for i in range(count):
drawRectangle(t,i+1,data[i])
#绘图:
def drawGraph(t):
#绘制X/Y坐标轴线
drawLine(t,0,0,360,0)
drawLine(t,355,-3,360,0)
drawLine(t,360,0,355,3)
drawLine(t,0,300,0,0)
drawLine(t,-3,295,0,300)
drawLine(t,0,300,3,295)
#为X轴添加坐标及其描述
for x in range(count):
if x == 0:
drawText(t,-10,-20,'0')
x += 1 #右移一位,避开原点
drawText(t,x*xscale-4,-20,(words[x - 1]))
drawText(t,x*xscale-4,data[x-1]*yscale+10,data[x-1])
drawText(t,355,-20,'WORDS')
drawText(t,-18,307,'NUMBERS')
drawBar(t)
#开始统计词频:
#对文本的每一行统计词频的函数
def precessLine(line, wordCounts):
#用空格代替标点
line = replacePunctuations(line)#如果不进行转换会用多种标点存在,转换后 可以统一用空格处理
#从每一行获取一个单词
words = line.split()#将字符串进行列表转换
for word in words:
if word in wordCounts:
wordCounts[word] += 1
else:
wordCounts[word] = 1#相当于增添新的元素
#空格替换标点的函数
def replacePunctuations(line):
for ch in line:
if ch in '~@#$%^&*()_-+=<>?/,.:;{}[]|\'""':
line = line.replace(ch,' ')#用空格将标点替换
return line
#主函数:
def main():
#打开文件操作:
filename = input('请输入要处理的文章的路径:').strip()
file = open(filename,'r')
#建立用于统计词频的空字典
wordCounts = {}
for line in file:
precessLine(line.lower(),wordCounts)
#从字典中获取数据对:(items() 函数以列表返回可遍历的(键, 值) 元组数组。)
pairs = list(wordCounts.items())
#列表中的数据对交换位置,数据对排序
items = [[x,y] for (y,x) in pairs]
items.sort()
#输出count个词频的结果:
for i in range(len(items)-1,len(items)-count-1,-1):
print(items[i][1] + '\t' + str(items[i][0]))
data.append(items[i][0])
words.append(items[i][1])
#关闭文件
file.close()
#根据词频结果绘制柱状图:
#设置图形界面的属性
turtle.title('词频统计柱状图')
turtle.setup(900,750,0,0)
t = turtle.Turtle()
t.hideturtle()
t.width(3)
#绘制数据图
drawGraph(t)
print('统计完成!')
if __name__ == '__main__':
main()
输出结果: