【文本挖掘】业绩预告原因·其一

下载数据及提取信息

在这里插入图片描述
在此单列前15行:

000001,平安银行,预计本公司2006年度净利润与上一年度相比将增长300%-350%2)业绩变化原因:利润的显著增长主要是由于利差的改善、资金运用效率的提高和贷款的良好增长,不良资产的成功清收和资产质量的改善使得所需减值拨备降低。这些因素连同有效税率的降低都进一步增强了我行的盈利能力。,利润的显著增长主要是由于利差的改善、资金运用效率的提高和贷款的良好增长,不良资产的成功清收和资产质量的改善使得所需减值拨备降低。这些因素连同有效税率的降低都进一步增强了我行的盈利能力。
000001,平安银行,预计本公司2007年上半年净利润与上一年度同期相比将增长125%-145%2)业绩变化原因:存贷款的良好的增长、利差的改善、中间业务收入的增加及有效税率的降低。,存贷款的良好的增长、利差的改善、中间业务收入的增加及有效税率的降低。
000001,平安银行,预计本公司2007年前三季度末累计净利润较去年同期相比将增长100%120%2)业绩变化原因:净利润大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量的提高以及有效税率的降低。,净利润大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量的提高以及有效税率的降低。
000001,平安银行,预计本公司20071月至12月累计净利润较去年同期相比将增长100%110%2)业绩变化原因:净利润大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量的提高以及有效税率的降低。,净利润大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量的提高以及有效税率的降低。
000001,平安银行,预计本公司20081月至3月累计净利润较去年同期相比将增长80%90%2)业绩变化原因:净利润较去年同期大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量稳定以及有效税率的降低。,净利润较去年同期大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量稳定以及有效税率的降低。
000001,平安银行,预计公司20081月至6月累计净利润较去年同期相比将增长85%95%2)业绩变化原因:业绩大幅增长的原因在于存贷款的增加、利差扩大、中间收入增加、不良贷款减少以及有效税率的降低。,业绩大幅增长的原因在于存贷款的增加、利差扩大、中间收入增加、不良贷款减少以及有效税率的降低。
000001,平安银行,预计20081-9月累计净利润较去年同期相比将增长75%80%,为32.79亿元至33.73亿元2)业绩变化原因:存贷款的良好增长、利差改善、中间业务收入增加、有效的费用管控和有效税率的降低。2008年前三季度本公司的存款和贷款增长良好,贷款增长控制在信贷调控要求下,其中存款增长远高于贷款增长。预计本公司截至2008930日的不良贷款绝对额和不良贷款率均继续维持下降趋势,实现较上一季度末减少。2005年以后发放的贷款不良率低于1,存贷款的良好增长、利差改善、中间业务收入增加、有效的费用管控和有效税率的降低。2008年前三季度本公司的存款和贷款增长良好,贷款增长控制在信贷调控要求下,其中存款增长远高于贷款增长。预计本公司截至2008930日的不良贷款绝对额和不良贷款率均继续维持下降趋势,实现较上一季度末减少。2005年以后发放的贷款不良率低于1000001,平安银行,预计本报告期20081120081231日净利润约6亿元,比上年同期下降约77%,基本每股收益约0.20元,上年同期下降约79%。上年同期业绩:1.净利润:26.50亿元。2.基本每股收益:0.942)业绩变化原因:根据监管机构第四季度在当前国内外金融和经济形势下对中小银行的要求,我行在2008年年底进行了特别的大额拨备及核销。因此,我行第四季度新增拨备约为56亿元,核销约94亿元。核销了全部损失类和可疑类的不良贷款,以及很大一部分的次级类贷款。核销贷款的绝大部分为我行2005年以前发放的历史不良贷款。2008年第四季度核销前新增不良贷款净额约为3亿元,占贷款总额约0.1%。我行预计20081231日的不良贷款余额约为19亿元,占总贷款比例不到1%,与20089304.3%200712315.6%的不良贷款率相比大幅下降。2008年年底信贷拨备余额预计约为20亿元。本次特别大额拨备及核销后,我行拨备充足率预计将超过300%,拨备覆盖率(信贷拨备/总不良贷款)预计约为105%。由于特别大额信贷拨备,2008年全年净利润降至约6亿元,即较2007年全年降低约77%,根据监管机构第四季度在当前国内外金融和经济形势下对中小银行的要求,我行在2008年年底进行了特别的大额拨备及核销。因此,我行第四季度新增拨备约为56亿元,核销约94亿元。核销了全部损失类和可疑类的不良贷款,以及很大一部分的次级类贷款。核销贷款的绝大部分为我行2005年以前发放的历史不良贷款。2008年第四季度核销前新增不良贷款净额约为3亿元,占贷款总额约0.1%。我行预计20081231日的不良贷款余额约为19亿元,占总贷款比例不到1%,与20089304.3%200712315.6%的不良贷款率相比大幅下降。2008年年底信贷拨备余额预计约为20亿元。本次特别大额拨备及核销后,我行拨备充足率预计将超过300%,拨备覆盖率(信贷拨备/总不良贷款)预计约为105%。由于特别大额信贷拨备,2008年全年净利润降至约6亿元,即较2007年全年降低约77%
000001,平安银行,预计公司20091-12月净利润同比增长在650%-720%之间。2)业绩变化原因:预计公司20091-12月净利润同比增长在650%-720%之间。,预计公司20091-12月净利润同比增长在650%-720%之间。
000001,平安银行,"预计2011-01-01到2011-03-31业绩:净利润236718万元至252499万元,增长幅度为50%至60%,基本每股收益0.68元至0.72元;上年同期业绩:净利润1578120000元,基本每股收益0.51元;2)业绩变化原因:本行2011年第一季度净利润同比大幅增长的主要原因是资产规模的稳定增长,以及利差改善和成本有效控制。",本行2011年第一季度净利润同比大幅增长的主要原因是资产规模的稳定增长,以及利差改善和成本有效控制。
000001,平安银行,"预计2011-01-01到2011-06-30业绩:净利润454968万元至485299万元,增长幅度为50%至60%,基本每股收益1.31元至1.39元;上年同期业绩:净利润3033120000元,基本每股收益0.98元;2)业绩变化原因:本行2011年上半年净利润同比大幅增长的主要原因是资产规模的稳定增长,以及利差改善和成本有效控制。",本行2011年上半年净利润同比大幅增长的主要原因是资产规模的稳定增长,以及利差改善和成本有效控制。
000001,平安银行,"预计2011-01-01到2011-09-30业绩:净利润754914万元至802096万元,增长幅度为60%至70%,基本每股收益1.96元至2.08元;上年同期业绩:净利润4718210000元,基本每股收益1.46元;2)业绩变化原因:1.合并报表因素。本公司于2011年7月通过非公开发行股份获得平安银行90.75%的股份,成为平安银行的控股股东。按照《企业会计准则》规定,本公司自2011年第三季度起编制合并报表,合并报表中2011年1-9月净利润包含母公司(深发展)1-9月的净利润和子公司(平安银行)自购买日至9月30日止的净利润,以及相应的合并调整项目;合并报表中2011年7-9月净利润包含母公司(深发展)7-9月的净利润和子公司(平安银行)自购买日至9月30日止的净利润,以及相应的合并调整项目;而上年同期净利润均为母公司(深发展)当期的净利润,没有合并报表因素;2.母公司(深发展)单体净利润同比大幅增长。母公司(深发展)1-9月净利润同比增长约50%,主要原因是资产规模的稳定增长,以及利差改善和成本有效控制。","1.合并报表因素。本公司于2011年7月通过非公开发行股份获得平安银行90.75%的股份,成为平安银行的控股股东。按照《企业会计准则》规定,本公司自2011年第三季度起编制合并报表,合并报表中2011年1-9月净利润包含母公司(深发展)1-9月的净利润和子公司(平安银行)自购买日至9月30日止的净利润,以及相应的合并调整项目;合并报表中2011年7-9月净利润包含母公司(深发展)7-9月的净利润和子公司(平安银行)自购买日至9月30日止的净利润,以及相应的合并调整项目;而上年同期净利润均为母公司(深发展)当期的净利润,没有合并报表因素;2.母公司(深发展)单体净利润同比大幅增长。母公司(深发展)1-9月净利润同比增长约50%,主要原因是资产规模的稳定增长,以及利差改善和成本有效控制。"
000001,平安银行,"预计2011-01-01到2011-12-31业绩:净利润999446万元至1061912万元,增长幅度为60%至70%,基本每股收益2.40元至2.55元;上年同期业绩:净利润6246540000元,基本每股收益1.90元;2)业绩变化原因:1.合并报表因素。本公司于2011年7月通过非公开发行股份获得平安银行90.75%的股份,成为平安银行的控股股东。按照《企业会计准则》规定,本公司自2011年第三季度起编制合并报表,合并报表中2011年度净利润包含本公司(深发展)1-12月的净利润和子公司(平安银行)自购买日至12月31日止的净利润,以及相应的合并调整项目,而上年同期净利润均为本公司(深发展)当年的净利润,没有合并报表因素;2.本报告期本公司(深发展)单体净利润同比大幅增长。本公司(深发展)2011年度净利润同比增长约45%-50%,主要原因是资产规模的稳定增长,以及息差改善和成本有效控制。",1.合并报表因素。本公司于20117月通过非公开发行股份获得平安银行90.75%的股份,成为平安银行的控股股东。按照《企业会计准则》规定,本公司自2011年第三季度起编制合并报表,合并报表中2011年度净利润包含本公司(深发展)1-12月的净利润和子公司(平安银行)自购买日至1231日止的净利润,以及相应的合并调整项目,而上年同期净利润均为本公司(深发展)当年的净利润,没有合并报表因素;2.本报告期本公司(深发展)单体净利润同比大幅增长。本公司(深发展)2011年度净利润同比增长约45%-50%,主要原因是资产规模的稳定增长,以及息差改善和成本有效控制。
000001,平安银行,"预计2015-01-01到2015-12-31业绩:净利润2079206万元至2277225万元,增长幅度为5%至15%,基本每股收益1.48元至1.62元;上年同期业绩:净利润19801960000元,基本每股收益1.44元;2)业绩变化原因:资产规模的稳定增长、息差改善以及成本有效控制。",资产规模的稳定增长、息差改善以及成本有效控制。
000002,万科A,预计公司2006年全年净利润较去年增长50%~65%2)业绩变化原因:公司2006年实现销售面积超过300万平方米,销售金额超过200亿元,可结算资源大幅上升,公司预计2006年可实现净利润数较上年同期将明显增长。,公司2006年实现销售面积超过300万平方米,销售金额超过200亿元,可结算资源大幅上升,公司预计2006年可实现净利润数较上年同期将明显增长。

关键词词云

import jieba
import jieba.analyse
import jieba
import jieba.posseg as psg
from collections import Counter
# 待分词的文本路径
sourceTxt = r"D:\\学习\\excel\\文本分析\\数据集\\文本分析\\单列.txt"
# 分好词后的文本路径
targetTxt = r"D:\\学习\\excel\\文本分析\\数据集\\文本分析\\单列输出.txt"

# 对文本进行操作

with open(sourceTxt, 'r', encoding = 'utf-8') as sourceFile, open(targetTxt, 'a+', encoding = 'utf-8') as targetFile:
    for line in sourceFile:
        seg = jieba.cut(line.strip(), cut_all = False)
        # 分好词之后之间用空格隔断
        output = ' '.join(seg)
        targetFile.write(output)
        targetFile.write('\n')
    print('写入成功!')

# 提取关键词
with open(targetTxt, 'r', encoding = 'utf-8') as file:
    text = file.readlines()
    """
    几个参数解释:
        * text : 待提取的字符串类型文本
        * topK : 返回TF-IDF权重最大的关键词的个数,默认为20个
        * withWeight : 是否返回关键词的权重值,默认为False
        * allowPOS : 包含指定词性的词,默认为空
    """
    keywords = jieba.analyse.extract_tags(str(text), topK = 100, withWeight=True, allowPOS=())
    print(keywords)
    print('提取完毕!')

import jieba.analyse
import matplotlib as mpl
import matplotlib.pyplot as plt
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator

content = open(r"D:\\学习\\excel\\文本分析\\数据集\\文本分析\\单列输出.txt", encoding = 'UTF-8').read()
tags = jieba.analyse.extract_tags(content,topK=200,withWeight=False)
text = ' '.join(tags)
wc = WordCloud(font_path=r"D:\\coder\\randomnumbers\\Keywords_cloud\\msyh.ttf",
              background_color='white',max_words=2000,
              #max_font_size=120,min_font_size=10,

              random_state=42,width=1200,height=800)
wc.generate(text)
plt.imshow(wc)
plt.axis('off')
plt.show()



在这里插入图片描述
当然,这是整体的内容,我们目前的研究对象是一行,也就是单篇业绩预告内容。
现在我们研究单列:

利润的显著增长主要是由于利差的改善、资金运用效率的提高和贷款的良好增长,不良资产的成功清收和资产质量的改善使得所需减值拨备降低。这些因素连同有效税率的降低都进一步增强了我行的盈利能力。,利润的显著增长主要是由于利差的改善、资金运用效率的提高和贷款的良好增长,不良资产的成功清收和资产质量的改善使得所需减值拨备降低。这些因素连同有效税率的降低都进一步增强了我行的盈利能力。

dict_keys([‘清收’, ‘拨备’, ‘改善’, ‘降低’, ‘资金运用’, ‘我行’, ‘不良资产’, ‘减值’, ‘税率’, ‘增长’, ‘利差’, ‘效率’, ‘增强’, ‘质量’, ‘盈利’, ‘贷款’, ‘利润’, ‘成功’, ‘资产’, ‘能力’, ‘因素’, ‘进一步’, ‘提高’])

在这里插入图片描述
但是我们同样发现,出现了“我行”、“效率”、“能力”这样单拎出来不知所云的词汇,难以判断这个公司业绩情况。
现在找一个亏损的:

由于公司受托管理实际控制人的房地产项目在业务上具有不均衡性;而自有在建项目因开发周期较长,短期内没有商品房销售。另公司的药产品生产和销售规模偏小,利润较薄。,由于公司受托管理实际控制人的房地产项目在业务上具有不均衡性;而自有在建项目因开发周期较长,短期内没有商品房销售。另公司的药产品生产和销售规模偏小,利润较薄。

dict_keys([‘管理控制’, ‘长短期’, ‘开发周期’, ‘均衡性’, ‘销售’, ‘项目’, ‘受托’, ‘偏小’, ‘在建’, ‘商品房’, ‘自有’, ‘公司’, ‘利润’, ‘房地产’, ‘业务’, ‘规模’, ‘产品’, ‘生产’])

在这里插入图片描述
也可以看出,类似“管理控制”这种词与判断依据无关,“房地产”、“项目”属于股票所属公司属性,所以需要专门设置停用词库去除:
在这里插入图片描述
单篇效果如此,现在以一个公司不同阶段的业绩预告进行分析:

利润的显著增长主要是由于利差的改善、资金运用效率的提高和贷款的良好增长,不良资产的成功清收和资产质量的改善使得所需减值拨备降低。这些因素连同有效税率的降低都进一步增强了我行的盈利能力。
存贷款的良好的增长、利差的改善、中间业务收入的增加及有效税率的降低。
净利润大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量的提高以及有效税率的降低。
净利润大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量的提高以及有效税率的降低。
净利润较去年同期大幅增长的原因主要是由于存贷款的增长,利差的扩大,中间业务收入的增加,资产质量稳定以及有效税率的降低。

[(‘税率’, 0.3725221877421053), (‘利差’, 0.36716002475701753), (‘存贷款’, 0.34978428137719303), (‘增长’, 0.3350161822421052), (‘中间业务’, 0.33269603663789477), (‘降低’, 0.29716572473894737), (‘有效’, 0.2322897566864035), (‘质量’, 0.20333572805894737), (‘收入’, 0.18546077404877193), (‘资产’, 0.17689818716105263), (‘增加’, 0.16045609780982453), (‘净利润’, 0.15757601134973684), (‘改善’, 0.15078009112552632), (‘扩大’, 0.1404368651226316), (‘由于’, 0.1354583684880702), (‘大幅’, 0.13482306223973684), (‘原因’, 0.1303113663868421), (‘提高’, 0.12458380736263158), (‘清收’, 0.12193576887719298), (‘主要’, 0.12135314037964913), (‘以及’, 0.10513400793052632), (‘拨备’, 0.10486638160438595), (‘良好’, 0.09989638662561404), (‘资金运用’, 0.09026105034473685), (‘我行’, 0.08894278540614034), (‘偏小’, 0.08418081191903508), (‘不良资产’, 0.08317400915947369), (‘减值’, 0.07994022727359648), (‘连同’, 0.06692709842210527), (‘较长’, 0.06415024243114036), (‘均衡’, 0.06386495127587719), (‘去年同期’, 0.06311437330807018), (‘效率’, 0.06026933982692982), (‘显著’, 0.059756744502631576), (‘短期内’, 0.059525510557982456), (‘周期’, 0.05562384347342106), (‘增强’, 0.05085248573324561), (‘盈利’, 0.05019824726429825), (‘贷款’, 0.049768152786228065), (‘利润’, 0.04971904949219299), (‘使得’, 0.04911322709526316), (‘销售’, 0.04665139189157895), (‘成功’, 0.04652735881736842), (‘稳定’, 0.0453450990477193), (‘能力’, 0.04329248314184211), (‘因素’, 0.04320882878070176), (‘规模’, 0.04314688299114035), (‘进一步’, 0.042329687977280706), (‘这些’, 0.033722283029385965), (‘没有’, 0.02730546986973684)]

在这里插入图片描述
500条呢?
在这里插入图片描述
在这里插入图片描述
在不明确规定词库的情况下,我们可以看到很多与判断无关的词汇被嵌入词云,而且主语词占比较大;
而且,由于没有设置专有词库,文本分得太细,也很难判断具体情况。

单纯的“增长”、“减少”显然无法满足我们的要求。
接下来,就是针对性停用词库的设计,以及固定搭配、专有词汇的收集。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值