2020年美赛C题matlab代码,2020年美赛数学建模c题部分代码(也是python的简单学习代码)...

将评论内容转化为对应的分数值

#以前已经从评论中统计好了各个单词的出现次数和等价之间的关系, 现在我们筛选出好的特征词汇和坏的特征词汇,统计评价的得分(即满意程度)

#统计单词的出现个数

charts = [‘star’, ‘five’,‘love’,‘great’,‘good’]#加分特征

badcharts = [‘bad’,‘but’,‘not’,‘out’] #减分特征

def row_count(filename): #评论内容以文本形式传入来

try:

with open(filename) as f_obj:

content = f_obj.read()

except FileNotFoundError:

msg = “The file " + filename + " does not exist.”

print(msg)

else:

content = content.replace(’,’, ’ ‘)

content = content.replace(’.’, ’ ‘)

content = content.replace(’-’, ’ ')

content = content.strip().lower()

words = content.split()

num = 0

for chart in charts:

#遍历每个特征词汇 统计好的特征单词出现在文本中的次数之和

num = num + words.count(chart)

for badchart in badcharts:

#遍历每个特征词汇 统计坏的特征单词出现在文本中的次数 统计作为得分

num = num - words.count(badchart)

if name == ‘main’:

filename = ‘Heart.txt’

goal = row_count(filename)

print(goal)

'Heart.txt’是一个文本文件,即评论的句子

代码二,统计每个单词的出现次数:

def row_count(filename):

try:

with open(filename) as f_obj:

content = f_obj.read()

except FileNotFoundError:

msg = “The file " + filename + " does not exist.”

print(msg)

else:

for i in ‘~!@#$%^&*()_±={}|:"<>?[];,./—’:

content = content.replace(’,’, ’ ') # 处理标点符号

content = content.strip().lower()

words = content.split()

#统计每个单词出现的个数

counts = {} # 空列表 存放新的单词

for i in words:

counts[i] = counts.get(i, 0) + 1

listhills = list(counts.items())

listhills.sort(key=lambda x: x[1], reverse=True)

for i in range(30):

word, counts = listhills[i]

print('{0:<10}{1:>5}'.format(word, counts))

if name == ‘main’:

row_count(‘1.txt’)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值