python做啥用-你都用 Python 来做什么?

Python很强大,也是做大数据分析的工具之一

做文本分析用Python也很顺手

举个实例,展示下如何使用Python做文本分析的

目前文本分析在现实生活中有着广泛的应用,大家最熟悉的莫过于以Google和百度为代表的搜索系统,Information />

中文文本分析常见的问题

中文的文本分析相对于英文有着很大的不同。英文天然具有分词的标志——空格,每个单词之间一定是以空格进行分离,所里在对于英文文章进行分词变得相对简单,没有分错词的问题。然而对于中文来说,分词是一个十分困难的事情,中文之间并没有诸如空格这样的分词标志,如何对中文进行分词,对于提高中文文本分析的准确率有着很重要的影响。

中文的分词大致可以分为两类,分别是基于字典的机械分词方法和以及基于统计模型的序列标注方法。字典匹配是将文本中的文字切片和已有的字典进行匹配,如果文字切片在字典中出现,则为正确的匹配字符,字典匹配包括最大匹配法和全切分路径选择等方法。序列标注的方法有隐马尔科夫模型(HMM)和条件随机场(CRF),通过统计计算的方式,得出最有可能的文字组合。

基于Stanford CoreNLP Toolkit

和Python NLTK的中文分词实例

Stanford CoreNLP Toolkit

Stanford

NLP是Stanford

NLP团队开发的一款基于java的开源自然语言处理工具集,提供了包括统计NLP和深度学习NLP在内的多种自然语言解决方案。Stanford

NLP Software有着丰富的文本处理功能,包括分词,词性标注,命名实体辨别,句法依存分析等。Stanford NLP Word

Segmenter提供了基于条件随机场(CRF)的中文分词解决方案,拥有两个分别基于 Chinese Penn Treebank

Standard和Peking University Standard的模型。

Python NLTK Library

在Python的NLTK(Natural

Language Toolkit)中也提供了Stanford

NLP分词器的接口,我们可以使用Python来进行简单的文本分析训练。NLTK是Python中最常用的自然语言处理包,提供了包括50是个语料库在内的许多工具接口,并提供一系列文本处理的工具,使用起来十分方便。NLTK提供的工具包括文本分类,文本分词,文本标注和解析等。

下面我们使用Stanford NLP的分词器来进行一个简单的分词训练,通过调用segment方法来实现中文分词:

代码:

segmenter.segment(u"昆仑数据是一家专注于工业大数据的公司")

结果:昆仑 数据 是 一 家 专注于 工业 大数 据 的 公司

我们也可以调用Stanford

NLP

Software来做词性标注的工作,从官网下载Postagger组件,同样,将其置于你的Python目录下,调用NLTK的StanfordPOSTagger包,并编辑接口的相对路径,需要注意的是,做词性标注时,输入的文本应为分词后的单词集,不是未分词的文本,如下图所示: />

代码: />

结果: />

Stanford NLP Software还有许多十分有用的功能,感兴趣的话,可以在官网上下载其他的组件,配置好路径,自己选择一个文本进行试验,相信一定会发现许多有趣的结果。

作者:JasonKeine

出身华盛顿大学的数据科学小砖家,92年小鲜肉,180+,K2分析团队颜值担当之一,文艺,深沉……看到这里心动了?人家已脱离单身苦海。这次我们真的不招亲~

关于昆仑数据:昆仑数据是工业大数据领域的领军企业,创始团队来自国内顶尖信息科技与工业企业以及顶尖研究机构,蝉联“中国大数据企业50强”,受邀参与制订《中国制造2025》工业大数据技术路线图,发起成立并主导运营工业大数据制造业创新中心,致力于用大数据和人工智能技术。已服务新能源、石油天然气、电子制造、工程机械、环保、动力装备、生物制药等领域。更多内容请关注微信公众号 ( id:k2datas ) 了解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值