自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (17)
  • 收藏
  • 关注

原创 Python下中文预处理

一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() return raw二 中文分词参考之前的一篇博客Python下的中文分词实现def NlpirTokener(self,raw): result=''

2014-03-25 10:31:16 4799

原创 Python下的英文预处理

一 得到原始文本内容    def FileRead(self,filePath):        f = open(filePath)        raw=f.read()        return raw二 去除停用词(nltk.word_tokenize)        tokens = nltk.word_tokenize(raw)        sto

2014-03-21 08:14:44 20655 8

原创 Python下的中文分词实现

Python下的中文信息处理的实现(一)一 安装和测试Python下的中文分词工具参考http://hi.baidu.com/fooying/item/6ae7a0e26087e8d7eb34c9e8的帖子“四款python中文分词系统简单测试”。从评测的结果来看在Python下可以采用的较好的中文分词工具是结巴中文分词和中科院的分词系统。对于这两个工具进行测试。

2014-03-19 21:07:29 26932 1

原创 Shell指令:find指令的使用

find指令的使用一 基本操作Find是一个非常有效的工具,它可以遍历当前目录甚至于整个文件系统来查找某些文件或目录。基本指令格式:  find pathname  -options[-print -exec -ok],操作知识参考以下一些链接:1. Shell编程--第2章使用find和xargs  [推荐比较全面]2.find与xargs用法简单示例3.find用法小结

2014-03-19 09:15:57 1371

原创 Shell指令:远程文件夹拷贝

1 文件夹通过ftp拷贝到远程机器上ftp是不支持文件夹传输的(sftp可以),如果一定要通过ftp传输文件夹,可以有几种策略:(1)如果条件允许可以使用ftp软件,FlashFTP,CuteFTP都是支持文件夹传输的。(2)如果无法使用ftp工具可以使用考虑先打成压缩包,然后传过去解压缩以后再移动到指定目录,这是比较推荐的方式,但是会让脚本变得复杂一些,而且需要额外的压缩和解压缩时间

2014-03-18 23:31:02 7616

原创 Deep Learning与自然语言处理学习笔记

在NLP中使用Deep Learning的还很少,有一种说法是认为语言(词、句子、篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号,所以后两者更适合做deep learning来学习特征。但是高度抽象并不意味着没有可能,可以在这个方面进行有益的尝试。文档的表示      文档的表示是为了把文档的符号内容数字化。最简单的是使用布尔向量来表示文档,每个词

2014-03-18 14:42:54 1860

原创 R语言下的自然语言处理学习笔记一

使用R语言进行自然语言处理学习笔记一第一章 基础1 安装R 是一个有着统计分析功能及强大作图功能的软件系统, 是由奥克兰大学统计学系的Ross Ihaka 和Robert Gentleman 共同创立(两个名字都是R打头,所以叫R语言)。据说R语言很像S语言,但是我也不知道S语言是什么样的。安装R的工具可以去官网http://mirror.bjtu.edu.cn/cran/我的安装

2014-03-16 23:10:04 10447

原创 ubuntu12.04 Eclipse Python下的nltk环境搭建

简化步骤1 安装Python2.7 Ubuntu12.04 默认安装Python2.7.3首先通过下面的命令安装pip,pip是Python的一个安装和管理扩展库的工具sudo apt-get install python-pip安装Python开发环境,方便今后编译其他扩展库sudo apt-get install python-dev安装missing的包apt

2014-03-16 12:31:59 1646

原创 《使用Python进行自然语言处理》学习笔记八

第六章 学习分类文本6.1 有监督分类1 分类概述分类是为给定的输入选择正确的类标签的任务。在基本的分类任务中,每个输入被认为是与所有其它输入隔离的,并且标签集是预先定义的。基本的分类任务有许多有趣的变种。例如: 在多类分类中, 每个实例可以分配多个标签;在开放性分类中, 标签集是事先没有定义的; 在序列分类中, 一个输入链表作为一个整体分类。如果分类的建立基于包含每个输入的正确标签的

2014-03-15 22:53:33 2282

原创 《使用Python进行自然语言处理》学习笔记七

第五章 分类和标注词汇5.1 使用词性标注器1 POS概述将词汇按它们的词性(parts-of-speech , POS)分类以及相应的标注它们的过程被称为词性标注(part-of-speech tagging, POS tagging )或干脆简称标注。词性也称为词类或词汇范畴。 用于特定任务的标记的集合被称为一个标记集。一个词性标注器(part-of-speech tagger 或

2014-03-14 20:58:17 2070

原创 《使用Python进行自然语言处理》学习笔记六

第四章 编写结构化程序4.1 回到基础1 赋值学过C,习惯了Java再过来学Python,感觉完全像《罗马假日》里安妮公主穿便装去城里撒欢一样。不需要声明,不需要初始化,随便用,太随意了。但是很快我就发现,自由对于理性不足的人来说是充满陷阱的。过于自由的语法提高了对经验的要求,新手很容易出现问题。所以还是决定,继续沿用MVC的模式和华为的Java编程规范来写Python。也许等多写写后

2014-03-14 19:18:17 2914

原创 《使用Python进行自然语言处理》学习笔记五

第三章 加工原料文本3.1 从网络和硬盘访问文本1 电子书古腾堡项目的其它文本可以在线获得,整个过程大概需要几十秒(实验室网络不行是硬伤)使用raw()可以得到原始的字符串。但是raw得到的数据绝对不是我们能直接拿去分析的,还要经过一些预处理。我们要将字符串分解为词和标点符号,正如我们在第 1 章中所看到的。这一步被称为分词, 它产生我们所熟悉的结构,一个词汇和标点符号的链

2014-03-13 21:48:32 12614 3

原创 《使用Python进行自然语言处理》学习笔记四

第二章 获得文本语料和词汇资源2.2 条件频率分布1条件和事件频率分布计算观察到的事件,如文本中出现的词汇。条件频率分布需要给每个时间关联一个条件,所以不是处理一个词序列,我们必须处理的是一个配对序列。每对的形式是:(条件,事件) 。2按文体计数词汇FreqDist()以一个简单的链表作为输入,ConditionalFreqDist()以一个配对链表作为输入。参见代码模块N

2014-03-13 11:37:28 3709

原创 《使用Python进行自然语言处理》学习笔记三

第二章 获得文本语料和词汇资源2.1 获取文本语料库1 古腾堡语料库Project Gutenberg的语料库包含>>>import nltk>>>from nltk.corpus import gutenberg>>>gutenberg.fileids() ['austen-emma.txt','austen-persuasion.txt', 'austen-sens

2014-03-12 15:58:50 2640

原创 《使用python进行自然语言理解》学习笔记二

四 NLTK下的基本操作1 命名小技巧(1) 排序表中大写字母出现在小写字母之前;(2) 选择有意义的变量名,它能提醒你代码的含义,也帮助别人读懂你的代码;(3) 经常使用变量来保存计算的中间步骤,尤其是当这样做使代码更容易读懂时;(4) 应该以字母开始,大小写敏感,不能包含空格但可以用下划线;2 字符串的合并和拆分(1) ' '.join(['Monty', 'Pyt

2014-03-11 21:38:34 4142

原创 《使用Python进行自然语言处理》学习笔记一

一 安装NLTK环境1.1 windows 7 32的安装1. 安装Python2.7(稳定版本,http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy);2. 安装NumPy:(http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy)运行numpy‑MKL‑1.8.1rc1.win32‑py2.7.e

2014-03-11 10:52:05 13989 1

NLPIR/ICTCLAS2014

目前最好的中文分词工具,张华平教授开发的,商用请联系开发者

2014-03-19

结巴中文分词

比较好的Python下的中文分词工具,但是速度不是特别快,可以看看我的博客说明

2014-03-19

用Python进行自然语言处理 中文

一本用Python进行自然语言处理 中文 的书和Pyhton简明教程 入门和用起来足够了

2014-03-15

PyYAML-3.10.win32-py2.7.exe

在window下安装的时候可能没有自带安装easy_install 需要我们手动安装首先下载easy_install的安装包,下载地址:http://pypi.python.org/pypi/setuptools在页面上找到 ez_setup.py下载下来,执行即可,嫌麻烦的直接下载 PyYAML-3.10.win32-py2.7.exe

2014-03-11

networkx-1.8.1.win32-py2.7

这是一个用于存储和操作由节点和边组成的网络结构的函数库。 可视化语义网络还需要安装 Graphviz 库

2014-03-11

Prover9-Mace4-v05-setup

使用python进行自然语言处理时可能会需要这个包

2014-03-11

setuptools-0.6c11.win32-py2.7

使用python并需要使用nltk时可能会需要这个包

2014-03-11

dateutil2.2和pyparsing2.0.1

python-dateutil-2.2.win32-py2.7和pyparsing-2.0.1.win32-py2.7是matplotlib的依赖组件,缺少它们会在进行计算和绘图的时候出现ValueError和ImportError

2014-03-11

numpy1.8.0和matplotlib1.3.1

numpy1.8.0和matplotlib1.3.1是nltk需要的两个python的科学计算以及画图的工具包

2014-03-11

nltk-2.0.4.win32.zip(NLP工具包)

进行自然语言处理的时候好用的python包,尤其是对英文的处理被极大的简化了,让研究者可以脱离繁琐的代码逻辑设计,专注于算法和模型研究

2014-03-11

python-2.7.6(Win32稳定版)

实用Python进行自然语言处理,安装环境使用的Phython2.7安装包,太新的3.3兼容的不好

2014-03-11

ActivePerl

一个perl的实用工具,安装非常简单,运行良好

2013-03-25

perl基础教程精华版

类似于.bat文件的批处理工具,用于DOS下的文件操作和指令运行

2013-03-25

无线通信原理及应用答案

无线通信原理及应用答案,给自学者使用,希望有帮助

2011-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除