计算机二级python综合应用题（六）

最新推荐文章于 2024-03-09 11:59:21 发布

三林六木

最新推荐文章于 2024-03-09 11:59:21 发布

阅读量4k

点赞数 4

分类专栏： python 文章标签： python 计算机二级

原文链接：https://blog.csdn.net/qq_45803923/article/details/115324685

版权

python 专栏收录该内容

18 篇文章 21 订阅

订阅专栏

考生文件夹下的文件data .txt 是一个来源于网上的技术信息资料。
问题1 ：（ 10 分）
问题2 ：（ 10 分）

问题1

在考生文件夹下给出了程序框架文件PY301 一l.py ，补充代码完成程序。用python 语言中文分词
第三方库jieba 对文件data. txt 进行分词，并选择长度大于等于3 个字符的关键词，写入文件out1. txt ,每行一个关键词，各行的关键词不重复，输出顺序不做要求 ,例如：
人工智能
科幻小说

import jieba
f = open('data.txt','r')
lines=f.readlines()
f.close()
D=[]
for line in lines:
    wordList=jieba.lcut(line)#用结巴分词，对每行内容进行分词
    for word in wordList:
        if len(word)<3: #判断词长度，要大于等于3个长度
            continue
        else:
            if word not in D:
                D.append(word)
f=open('out1.txt','w')
f.writelines('\n'.join(D))            
f.close()

问题2

在考生文件夹下给出了程序框架文件PY301 一2 .py ，补充代码完成程序。对文件data. txt 进行分词，对长度不少于3 个字符的关键词，统计出现的次数，按照出现次数由大到小的顺序输出到文件out2 .txt ，每行一个关键词及其出现次数，例如：
科学家： 2
达特茅斯： 1

import jieba
f=open("data.txt","r")
lines=f.readlines()
f.close()

d = {}
for line in lines:
    wordList=jieba.lcut(line) #用结巴分词，对每行内容进行分词
    for word in wordList:
        if len(word)<3:
            continue
        else:
            d[word]=d.get(word,0)+1
ls=list(d.items())
ls.sort(key=lambda x:x[1],reverse=True)#按照词频由高到低排序
            
f=open('out2.txt','w')
for i in range(len(ls)):
    f.write('{}:{}\n'.format(ls[i][0],ls[i][1]))
f.close()

三林六木

关注

4
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
计算机二级python综合应用题（六）

问题1import jiebaf = open('data.txt','r')lines=f.readlines()f.close()D=[]for line in lines: wordList=jieba.lcut(line)#用结巴分词，对每行内容进行分词 for word in wordList: if len(word)<3: #判断词...
复制链接

扫一扫