数学之路(机器学习实践指南)-文本挖掘与NLP(2)

本文为原创博客,探讨了文本挖掘与NLP领域的最新进展,包括人工智能、计算机科学与情报研究的结合,以及在解决复杂问题上的创新尝试。内容涵盖从低频词分析到高级算法的运用,旨在启发读者理解智能技术的潜力与挑战。
摘要由CSDN通过智能技术生成
#--coding:utf-8--
#code by myhaspl 
from __future__ import unicode_literals
from __future__ import division




import nltk




import sys
sys.path.append("../")


import jieba




def cutstring(txt):
    #分词
    cutstr = jieba.cut(txt)
    result=" ".join(cutstr)
    return result
    
#读取文件
txtfileobject = open('test1.txt','r')


try:
   filestr = txtfileobject.read( )
finally:
   txtfileobject.close( )
 
cutstr=cutstring(filestr)
tokenstr=nltk.word_tokenize(cutstr)


fdist1=nltk.FreqDist(tokenstr)
#只出现了一次的低频词 
print "----只出现了一次的低频词-----"
for word in fdist1.hapaxes():
    print word,
#找出文本中的长词 
print
print "----文本中的长词-----"
for word in [w for w in set(tokenstr) if len(w)>3]:
    print word,

本博客所有内容是原创,如果转载请注明来源

http://blog.csdn.net/myhaspl/


----只出现了一次的低频词-----
分析 相媲美 这么 出来 再 而 万美元 迅速 该项 具有 察觉 启发 用来 仿生 很难 东西 考克斯 高级 到 高智能 · 团队 方法 希望 亿 算法 再次 情报机构 情况 汽车 科学 入侵 运用 1.84 拨给 智能 网络 擅长 只是 必须 其 约合 时候 系 助理 逆向 需要 媒体报道 接下来 类似 视觉 规模 进行 国外 认出来 以及 人工智能 为了 赋予 终极目标 技术 聪明 计划 Cox 越来越 一点 做到 计算机科学 就算 项目 等 皮层 情报研究 如今 David 培养 不然 近日 也 媲美 一项 从而 读取 可以 只 系统 获得 CBS 而已 人民币 制造 它 训练 上 哺乳动物 几次 2800 价值 出色 资金 计划署 创新 天生 见到 千次 之后 图案 头 着手 去 看 教授 这一 说道 超越 保持 受 解决 其它 这是 戴维 基因组 为何 都 领导 更加 神经元 脑科学 中心 IARPA 有限 科学家 驾驶 于 单是 经费 则 过程 基本准则 中 一半 核磁共振 图像 人员 怎样 难 又 目的 迟早会 美国 正 挑战 称 用于
----文本中的长词-----
情报机构 1.84 媒体报道 人工智能 终极目标 计算机科学 情报研究 David 计算机系统 哺乳动物 2800 哈佛大学 IARPA 基本准则 核磁共振 SEAS 应用科学 生物学系

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值