python提取文章关键字,并计算出现次数

context = “”"
继承是多态的前提,为什么我们在学习或者工作中会使用多态呢?
首先,我们要了解在多态中的两个规则:
1.成员变量:编译看=的左边,运行还是看左边
2.成员方法:编译看=的左边。运行看右边。
下面这个图可以很直观的看出多态的好处:
“”"
import re
import jieba #这个jieba的模块就是用于汉语词语的切割 #对中文文章分词

context = re.sub(r"[\s,.::?=。!@#$%^&*]+", “”,context) #替换
word_list = jieba.cut(context) #这个是对文本的内容进行切割,分成一个一个小词语,但是不区分动词/名词等等
print(list(word_list)) #打印列表

import jieba.posseg as posseg #导入我们要用的包
words =[] #初始话一个列表,也就是准备一个列表用于数据存储
for word,flag in posseg.cut(context):
if flag == “n” : #判断名词,如果该词语为名词,进入下面的条件代码,进行列表的添加操作。
words.append(word) #将获取到的名词,append到列表
print(words) # 打印输入列表,可以看到具体的结果
dictWordCount ={} #初始化一个字典,用于存储 每个词语以及出现的个数
for word in words: #循环遍历我们在上面添加过词语的字典
if word not in dictWordCount: #进行条件判断,如果一个词语第一次出现,那就初始化个数为1
dictWordCount[word] = 1
else:
dictWordCount[word] += 1 #之后因为字典中有数据了那就,加一

print(dictWordCount) #打印

d = {1: 3, 2: 9, 3: 332, 4: 1223}
new = dict()
for i in [1,2,3,4]:
new.update({i: d[i]})
print(new)

l = list()
for i in d:
l.append({i: d[i]})
print(l)

#***********************************************************************
#下面这个方法,就是将文件里的内容进行遍历,
dict_english = {}
def read_englishfileForwords():
with open(“./input_english.txt”) as fin:
for line in fin :
line = line[:-1] #去末尾/n
words = line.split()
for word in words:
if word not in dict_english :
dict_english[word] = 0
dict_english[word] +=1

print(dict_english)

read_englishfileForwords()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值