python金融分析小知识(8)——NLP初探之结巴分词的使用

Hello 大家好,我是一名新来的金融领域打工人,日常分享一些python知识,都是自己在学习生活中遇到的一些问题,分享给大家,希望对大家有一定的帮助!

想必大家在平时的投资中肯定很关注市场的各种信息,关注市场行业的热点新闻等等,那么有没有一种算法能够将这些舆情进行分析,并且提炼出关键的主题呢?如果可以的话,那我大家在投资的时候也就有了可以重点关注的行业、板块等等。

1.NLP初探

NLP全称Natural Language Procession,中文翻译叫做自然语言处理。通俗来说,自然语言处理其实就是让计算机可以懂得我们人类的语言,然后帮我们干活。

我们可以通过NLP使用来对当前的舆情进行分析,找到那个“投资风口”

2.结巴分词的使用 

在自然语言处理领域,中文和英文最大不一样的地方就是中文并没有像英文一样词与词之间有空格作为天然的分隔,所以我们首先在拿到一段中文的文本之后,首先需要对其进行分词,这里我们使用结巴分词。 

假如说我们现在有这么一段文章,然后对其进行处理:

'国务院新闻办今天(6月8日)举行发布会,邀请相关部委和海南省负责人介绍《海南自由贸易港建设总体方案》有关情况并答记者问。海南自由贸易试验区成立两年多来,先后有77项制度创新发布,其中许多是全国首创。两年来,新增市场主体超过44万户,比两年前增长66%,这些都为海南自由贸易港的建设奠定了基础。根据方案,2025年前将适时启动全岛封关运作。在此之前,率先对部分进口商品实施零关税,免征进口关税、进口环节增值税和消费税。此外,大幅放宽离岛免税购物政策,海南离岛免税购物限额提至每人每年10万元,进一步扩大免税商品种类。海南自由贸易港将实行“非禁即入”,对企业实行备案制、承诺制,承诺符合条件就可以开展业务。从现在开始到2025年,对符合条件的企业和个人减免所得税,对在海南自贸港工作的高端和紧缺人才,如果在海南岛内待满183天,个人所得税实际税负超过15%的那部分将免征。按照规划,海南自由贸易港将在2035年前全面实现贸易自由便利、投资自由便利、跨境资金流动自由便利、人员进出自由便利、运输来往自由便利和数据安全有序流动,推进建设高水平自由贸易港。'
text = '国务院新闻办今天(6月8日)举行发布会,邀请相关部委和海南省负责人介绍《海南自由贸易港建设总体方案》有关情况并答记者问。海南自由贸易试验区成立两年多来,先后有77项制度创新发布,其中许多是全国首创。两年来,新增市场主体超过44万户,比两年前增长66%,这些都为海南自由贸易港的建设奠定了基础。根据方案,2025年前将适时启动全岛封关运作。在此之前,率先对部分进口商品实施零关税,免征进口关税、进口环节增值税和消费税。此外,大幅放宽离岛免税购物政策,海南离岛免税购物限额提至每人每年10万元,进一步扩大免税商品种类。海南自由贸易港将实行“非禁即入”,对企业实行备案制、承诺制,承诺符合条件就可以开展业务。从现在开始到2025年,对符合条件的企业和个人减免所得税,对在海南自贸港工作的高端和紧缺人才,如果在海南岛内待满183天,个人所得税实际税负超过15%的那部分将免征。按照规划,海南自由贸易港将在2035年前全面实现贸易自由便利、投资自由便利、跨境资金流动自由便利、人员进出自由便利、运输来往自由便利和数据安全有序流动,推进建设高水平自由贸易港。'

## 引入结巴分词库
import jieba
words = jieba.cut(text)
words = '  '.join(words) # 用空格连接成字符串
words

让我们打印一下结果:

'国务院新闻办  今天  (  6  月  8  日  )  举行  发布会  ,  邀请  相关  部委  和  海南省  负责人  介绍  《  海南  自由贸易  港  建设  总体方案  》  有关  情况  并  答记者问  。  海南  自由贸易  试验区  成立  两年  多来  ,  先后  有  77  项  制度  创新  发布  ,  其中  许多  是  全国  首创  。  两年  来  ,  新增  市场主体  超过  44  万户  ,  比  两年  前  增长  66%  ,  这些  都  为  海南  自由贸易  港  的  建设  奠定  了  基础  。  根据  方案  ,  2025  年前  将  适时  启动  全岛  封关  运作  。  在此之前  ,  率先  对  部分  进口商品  实施  零关税  ,  免征  进口关税  、  进口  环节  增值税  和  消费税  。  此外  ,  大幅  放宽  离岛  免税  购物  政策  ,  海南  离岛  免税  购物  限额  提至  每人每年  10  万元  ,  进一步  扩大  免税  商品种类  。  海南  自由贸易  港  将  实行  “  非禁  即入  ”  ,  对  企业  实行  备案制  、  承诺制  ,  承诺  符合条件  就  可以  开展业务  。  从  现在  开始  到  2025  年  ,  对  符合条件  的  企业  和  个人  减免  所得税  ,  对  在  海南  自贸港  工作  的  高端  和  紧缺  人才  ,  如果  在  海南岛  内待  满  183  天  ,  个人所得税  实际  税负  超过  15%  的  那  部分  将  免征  。  按照  规划  ,  海南  自由贸易  港  将  在  2035  年前  全面实现  贸易  自由  便利  、  投资  自由  便利  、  跨境  资金  流动  自由  便利  、  人员  进出  自由  便利  、  运输  来往  自由  便利  和  数据安全  有序  流动  ,  推进  建设  高水平  自由贸易  港  。'

 我们看这个段落是不是已经分词完成啦!

3.结巴分词进行列表分词

当我们想把分词后的内容用列表来展示时,可以这样做:

word_list = jieba.lcut(text)
word_list[:30]  #只打印前30个元素

让我们打印下结果看看:

['国务院新闻办',
 '今天',
 '(',
 '6',
 '月',
 '8',
 '日',
 ')',
 '举行',
 '发布会',
 ',',
 '邀请',
 '相关',
 '部委',
 '和',
 '海南省',
 '负责人',
 '介绍',
 '《',
 '海南',
 '自由贸易',
 '港',
 '建设',
 '总体方案',
 '》',
 '有关',
 '情况',
 '并',
 '答记者问',
 '。']

这样的结果其实是和jieba.cut()结果是一样的,只是是列表的形式!

今天的文章就分享到这里啦!

下篇文章准备讲讲停用词!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

君子以自强不息python

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值