Python
文章平均质量分 86
活着的隐形人
学习智能信息处理、自然语言理解、数据挖掘,使用Python,Java。虽然写出来,但是在这些当面都还是歌小学生,希望各位技术大牛多多指教
展开
-
《使用Python进行自然语言处理》学习笔记一
一 安装NLTK环境1.1 windows 7 32的安装1. 安装Python2.7(稳定版本,http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy);2. 安装NumPy:(http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy)运行numpy‑MKL‑1.8.1rc1.win32‑py2.7.e原创 2014-03-11 10:52:05 · 14065 阅读 · 1 评论 -
Python下的英文预处理
一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() return raw二 去除停用词(nltk.word_tokenize) tokens = nltk.word_tokenize(raw) sto原创 2014-03-21 08:14:44 · 20730 阅读 · 8 评论 -
Python下中文预处理
一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() return raw二 中文分词参考之前的一篇博客Python下的中文分词实现def NlpirTokener(self,raw): result=''原创 2014-03-25 10:31:16 · 4879 阅读 · 0 评论 -
Python下的中文分词实现
Python下的中文信息处理的实现(一)一 安装和测试Python下的中文分词工具参考http://hi.baidu.com/fooying/item/6ae7a0e26087e8d7eb34c9e8的帖子“四款python中文分词系统简单测试”。从评测的结果来看在Python下可以采用的较好的中文分词工具是结巴中文分词和中科院的分词系统。对于这两个工具进行测试。原创 2014-03-19 21:07:29 · 27042 阅读 · 1 评论 -
《使用Python进行自然语言处理》学习笔记四
第二章 获得文本语料和词汇资源2.2 条件频率分布1条件和事件频率分布计算观察到的事件,如文本中出现的词汇。条件频率分布需要给每个时间关联一个条件,所以不是处理一个词序列,我们必须处理的是一个配对序列。每对的形式是:(条件,事件) 。2按文体计数词汇FreqDist()以一个简单的链表作为输入,ConditionalFreqDist()以一个配对链表作为输入。参见代码模块N原创 2014-03-13 11:37:28 · 3758 阅读 · 0 评论 -
《使用Python进行自然语言处理》学习笔记五
第三章 加工原料文本3.1 从网络和硬盘访问文本1 电子书古腾堡项目的其它文本可以在线获得,整个过程大概需要几十秒(实验室网络不行是硬伤)使用raw()可以得到原始的字符串。但是raw得到的数据绝对不是我们能直接拿去分析的,还要经过一些预处理。我们要将字符串分解为词和标点符号,正如我们在第 1 章中所看到的。这一步被称为分词, 它产生我们所熟悉的结构,一个词汇和标点符号的链原创 2014-03-13 21:48:32 · 12755 阅读 · 3 评论 -
《使用Python进行自然语言处理》学习笔记七
第五章 分类和标注词汇5.1 使用词性标注器1 POS概述将词汇按它们的词性(parts-of-speech , POS)分类以及相应的标注它们的过程被称为词性标注(part-of-speech tagging, POS tagging )或干脆简称标注。词性也称为词类或词汇范畴。 用于特定任务的标记的集合被称为一个标记集。一个词性标注器(part-of-speech tagger 或原创 2014-03-14 20:58:17 · 2109 阅读 · 0 评论 -
《使用Python进行自然语言处理》学习笔记六
第四章 编写结构化程序4.1 回到基础1 赋值学过C,习惯了Java再过来学Python,感觉完全像《罗马假日》里安妮公主穿便装去城里撒欢一样。不需要声明,不需要初始化,随便用,太随意了。但是很快我就发现,自由对于理性不足的人来说是充满陷阱的。过于自由的语法提高了对经验的要求,新手很容易出现问题。所以还是决定,继续沿用MVC的模式和华为的Java编程规范来写Python。也许等多写写后原创 2014-03-14 19:18:17 · 3020 阅读 · 0 评论 -
《使用Python进行自然语言处理》学习笔记八
第六章 学习分类文本6.1 有监督分类1 分类概述分类是为给定的输入选择正确的类标签的任务。在基本的分类任务中,每个输入被认为是与所有其它输入隔离的,并且标签集是预先定义的。基本的分类任务有许多有趣的变种。例如: 在多类分类中, 每个实例可以分配多个标签;在开放性分类中, 标签集是事先没有定义的; 在序列分类中, 一个输入链表作为一个整体分类。如果分类的建立基于包含每个输入的正确标签的原创 2014-03-15 22:53:33 · 2323 阅读 · 0 评论 -
《使用Python进行自然语言处理》学习笔记三
第二章 获得文本语料和词汇资源2.1 获取文本语料库1 古腾堡语料库Project Gutenberg的语料库包含>>>import nltk>>>from nltk.corpus import gutenberg>>>gutenberg.fileids() ['austen-emma.txt','austen-persuasion.txt', 'austen-sens原创 2014-03-12 15:58:50 · 2697 阅读 · 0 评论 -
《使用python进行自然语言理解》学习笔记二
四 NLTK下的基本操作1 命名小技巧(1) 排序表中大写字母出现在小写字母之前;(2) 选择有意义的变量名,它能提醒你代码的含义,也帮助别人读懂你的代码;(3) 经常使用变量来保存计算的中间步骤,尤其是当这样做使代码更容易读懂时;(4) 应该以字母开始,大小写敏感,不能包含空格但可以用下划线;2 字符串的合并和拆分(1) ' '.join(['Monty', 'Pyt原创 2014-03-11 21:38:34 · 4164 阅读 · 0 评论 -
利用Python进行数据分析笔记(一
一 利用Python进行数据分析 这是一本2013年出的书,所以已经落后了三年,在阅读时我需要注意这一点。Python拥有一个巨大的活跃的科学计算社区,拥有Pandas等一些不断改良的。而且Python可以作为粘合剂,如Cython项目可以对接C/C++代码。但是Python是一种解释型编程语言,因此大部分Python代码都要比编译型语言(比如C++和Java)编写的代码运行的慢得多。原创 2016-04-13 22:59:03 · 3300 阅读 · 0 评论