数学之路(机器学习实践指南)-文本挖掘与NLP(1)

#encoding=utf-8
#--coding:utf-8--
#code by myhaspl http://blog.csdn.net/myhaspl
from __future__ import print_function,unicode_literals

import nltk
import sys
sys.path.append("../")

import jieba
from jieba import posseg

def cutstrpos(txt):
    #分词+词性 http://blog.csdn.net/myhaspl
    cutstr = posseg.cut(txt)
    result=""
    for word, flag in cutstr:
        result+=word+"/"+flag+' '
    return result

def cutstring(txt):
    #分词http://blog.csdn.net/myhaspl
    cutstr = jieba.cut(txt)
    result=" ".join(cutstr)
    return result
    
#读取文件http://blog.csdn.net/myhaspl
txtfileobject = open('test1.txt')
textstr=""
try:
   filestr = txtfileobject.read( )
finally:
   txtfileobject.close( )


#中文分词并标注词性http://blog.csdn.net/myhaspl
posstr=cutstrpos(filestr)
strtag=[nltk.tag.str2tuple(word) for word in posstr.split()]
for word,tag in strtag:
    print(word,tag)
    
#进入语料库http://blog.csdn.net/myhaspl   
cutstr=cutstring(filestr)
mytext=nltk.text.Text(cutstr)
print(mytext.concordance("出"))




本博客所有内容是原创,如果转载请注明来源

http://blog.csdn.net/myhaspl/


据 P

国外 S
媒体报道 N
, X
美国 NS
科学家 N
近日 T
获得 V
了 UL
2800 M
万美元 M
( X
约合 VN
1.84 M
亿 M
人民币 N
) X
的 UJ
研究 VN
经费 VN
, X
用于 V
设计 VN
一款 M
能 V
与 P
人类 N
识别 V
图形 N
速度 N
相媲美 Z
的 UJ
计算机系统 N
情报机构 N
要 V
处理 V
的 UJ
数据 N
越来越 D
多 M
, X
这些 R
数据 N
都 D
必须 D
进行 V
迅速 AD
分析 VN
, X
但 C
问题 N
是 V
, X
人类 N
很 D
难 A
保持 V
这样 R
的 UJ
工作 VN
速度 N
, X
计算机 N
的 UJ
学习 V
能力 N
又 D
很 D
有限 A
。 X
 X
哈佛大学 NT
的 UJ
研究 VN
团队 N
如今 T
正 D
着手 V
解决 V
这 R
一 M
问题 N
。 X
他们 R
希望 V
能 V
弄清 V
, X
是 V
怎样 R
的 UJ
大脑 N
活动 VN
过程 N
赋予 V
了 UL
人类 N
识别 V
图形 N
的 UJ
出色 V
能力 N
。 X
他们 R
的 UJ
终极目标 N
是 V
, X
研发 J
出 V
仿生 V
计算机系统 N
, X
从而 C
制造 V
出 V
更加 D
聪明 A
的 UJ
人工智能 N
系统 N
。 X
人类 N
天生 N
就 D
擅长 V
识别 V
图案 N
, X
一个 M
东西 NS
只 D
需要 V
看 V
几次 M
, X
再次 D
见到 V
的 UJ
时候 N
就 D
能 V
认出来 V
了 UL
。 X
计算机 N
则 D
不然 C
, X
就算 V
训练 VN
上 F
千次 M
, X
也 D
很 D
难 A
培养 V
出 V
这样 R
的 UJ
能力 N
。 X
受 V
人类 N
大脑 N
启发 V
而 C
研发 J
出 V
的 UJ
智能 N
计算机 N
可以 C
用来 V
察觉 V
网络 N
入侵 V
、 X
读取 V
核磁共振 L
图像 N
、 X
甚至 D
能 V
驾驶 V
汽车 N
。 X
据 P
哈佛大学 NT
工程 N
与 P
应用科学 L
学院 N
( X
SEAS ENG
) X
称 V
, X
为了 P
弄清 V
为何 R
人类 N
和 C
其它 R
哺乳动物 N
能够 V
做到 V
这 R
一点 M
, X
研究 VN
人员 N
记录 N
了 UL
大脑 N
视觉 N
皮层 N
的 UJ
活动 VN
情况 N
, X
并 C
使用 V
创新 V
技术 N
将 D
它们 R
之间 F
的 UJ
联系 N
绘制 N
出来 V
。 X
接下来 L
, X
他们 R
再 D
使用 V
逆向 N
工程 N
处理 V
这些 R
数据 N
, X
并 C
将 D
其 R
运用 VN
到 V
高智能 NR
计算机 N
算法 N
的 UJ
研发 J
中 F
去 V
。 X
 X
高级 B
情报研究 N
计划署 N
( X
IARPA ENG
) X
将 D
资金 N
拨给 V
了 UL
哈佛大学 NT
工程 N
与 P
应用科学 L
学院 N
( X
SEAS ENG
) X
、 X
脑科学 N
中心 N
( X
CBS ENG
) X
、 X
以及 C
分子 N
与 P
细胞 N
生物学系 N
。 X
这 R
是 V
一个 M
巨大 A
的 UJ
挑战 VN
, X
它 R
的 UJ
规模 N
类似 V
于 P
人类 N
基因组 N
计划 N
。 X
该项 R
目的 N
领导 N
、 X
分子 N
与 P
细胞 N
生物学系 N
和 C
计算机科学 N
系 V
的 UJ
助理 VN
教授 N
戴维 NR
· X
考克斯 NRT
( X
David ENG
 X
Cox ENG
) X
说道 V
, X
要 V
记录 N
这么 R
多 M
神经元 NZ
的 UJ
活动 VN
、 X
并 C
绘制 N
出 V
它们 R
之间 F
的 UJ
联系 N
, X
单 D
是 V
这 R
一项 M
工作 VN
就 D
具有 V
巨大 A
的 UJ
科学 N
价值 N
, X
但 C
这 R
只是 C
我们 R
项目 N
的 UJ
头 N
一半 M
而已 Y
。 X
等 U
我们 R
弄清 V
了 UL
大脑 N
学习 V
方法 N
的 UJ
基本准则 N
之后 F
, X
我们 R
迟早会 NR
设计 VN
出 V
一款 M
能够 V
媲美 V
、 X
甚至 D
超越 V
人类 N
的 UJ
计算机系统 N
。 X
Displaying 9 of 9 matches:
 过 程   赋 予   了   人 类   识 别   图 形   的   出 色   能 力   。   他 们   的   终 极 目 标   是
 。   他 们   的   终 极 目 标   是   ,   研 发   出   仿 生   计 算 机 系 统   ,   从 而   制 造  
 出   仿 生   计 算 机 系 统   ,   从 而   制 造   出   更 加   聪 明   的   人 工 智 能   系 统   。
   ,   再 次   见 到   的   时 候   就   能   认 出 来   了   。   计 算 机   则   不 然   ,   就
 训 练   上   千 次   ,   也   很   难   培 养   出   这 样   的   能 力   。   受   人 类   大 脑
   。   受   人 类   大 脑   启 发   而   研 发   出   的   智 能   计 算 机   可 以   用 来   察 觉
 技 术   将   它 们   之 间   的   联 系   绘 制   出 来   。   接 下 来   ,   他 们   再   使 用  
   多   神 经 元   的   活 动   、   并   绘 制   出   它 们   之 间   的   联 系   ,   单 是   这
 本 准 则   之 后   ,   我 们   迟 早 会   设 计   出   一 款   能 够   媲 美   、   甚 至   超 越  
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值