需求:度量上市公司年报的管理层语调的代码,要求给出积极(pos)语调、消极(neg)语调、积极词汇数量、消极词汇数量、段落总词数、停用词数量、总句数量,最后计算出管理层的乐观主义指标。最终结果要输入到Excel中,按照年份和公司代码排列。代码要求适应环境为python3,可以更改年报的选取时间。
环境:
Python3实现度量上市公司年报管理层语调,并输出到Excel中。
本代码使用了中文停用词库和情感词库来进行文本分析。在运行代码前,请确保已经安装以下Python库:
- jieba
- pandas
代码实现:
import jieba
import pandas as pd
import numpy as np
import os
import re
# 设置停用词表
stopwords_path = 'stopwords.txt'
stopwords = set([line.strip() for line in open(stopwords_path, 'r', encoding='utf-8').readlines()])
# 设置情感词表
posdict_path = 'posdict.txt'
posdict = set([line.strip() for line in open(posdict_path, 'r', encoding='utf-8').readlines()])
negdict_path = 'negdict.t