数学之路(机器学习实践指南)-文本挖掘与NLP(2)

最新推荐文章于 2018-06-29 01:18:57 发布

麦好

最新推荐文章于 2018-06-29 01:18:57 发布

阅读量1.8k

点赞数

分类专栏： AI与机器学习机器学习实践指南

本文链接：https://blog.csdn.net/myhaspl/article/details/50598335

版权

机器学习实践指南同时被 2 个专栏收录

217 篇文章 79 订阅

订阅专栏

AI与机器学习

106 篇文章 7 订阅

订阅专栏

本文为原创博客，探讨了文本挖掘与NLP领域的最新进展，包括人工智能、计算机科学与情报研究的结合，以及在解决复杂问题上的创新尝试。内容涵盖从低频词分析到高级算法的运用，旨在启发读者理解智能技术的潜力与挑战。

摘要由CSDN通过智能技术生成

#--coding:utf-8--
#code by myhaspl 
from __future__ import unicode_literals
from __future__ import division




import nltk




import sys
sys.path.append("../")


import jieba




def cutstring(txt):
    #分词
    cutstr = jieba.cut(txt)
    result=" ".join(cutstr)
    return result
    
#读取文件
txtfileobject = open('test1.txt','r')


try:
   filestr = txtfileobject.read( )
finally:
   txtfileobject.close( )
 
cutstr=cutstring(filestr)
tokenstr=nltk.word_tokenize(cutstr)


fdist1=nltk.FreqDist(tokenstr)
#只出现了一次的低频词 
print "----只出现了一次的低频词-----"
for word in fdist1.hapaxes():
    print word,
#找出文本中的长词 
print
print "----文本中的长词-----"
for word in [w for w in set(tokenstr) if len(w)>3]:
    print word,

本博客所有内容是原创，如果转载请注明来源

http://blog.csdn.net/myhaspl/

----只出现了一次的低频词-----
分析相媲美这么出来再而万美元迅速该项具有察觉启发用来仿生很难东西考克斯高级到高智能 · 团队方法希望亿算法再次情报机构情况汽车科学入侵运用 1.84 拨给智能网络擅长只是必须其约合时候系助理逆向需要媒体报道接下来类似视觉规模进行国外认出来以及人工智能为了赋予终极目标技术聪明计划 Cox 越来越一点做到计算机科学就算项目等皮层情报研究如今 David 培养不然近日也媲美一项从而读取可以只系统获得 CBS 而已人民币制造它训练上哺乳动物几次 2800 价值出色资金计划署创新天生见到千次之后图案头着手去看教授这一说道超越保持受解决其它这是戴维基因组为何都领导更加神经元脑科学中心 IARPA 有限科学家驾驶于单是经费则过程基本准则中一半核磁共振图像人员怎样难又目的迟早会美国正挑战称用于
----文本中的长词-----
情报机构 1.84 媒体报道人工智能终极目标计算机科学情报研究 David 计算机系统哺乳动物 2800 哈佛大学 IARPA 基本准则核磁共振 SEAS 应用科学生物学系

麦好

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
数学之路(机器学习实践指南)-文本挖掘与NLP(2)

#--coding:utf-8--#code by myhaspl from __future__ import unicode_literalsfrom __future__ import divisionimport nltkimport syssys.path.append("../")import jiebadef cutstring(txt):
复制链接

扫一扫

专栏目录