利用Python进行数据分析笔记(一

一 利用Python进行数据分析      这是一本2013年出的书,所以已经落后了三年,在阅读时我需要注意这一点。Python拥有一个巨大的活跃的科学计算社区,拥有Pandas等一些不断改良的。而且Python可以作为粘合剂,如Cython项目可以对接C/C++代码。但是Python是一种解释...

2016-04-13 22:59:03

阅读数 2761

评论数 0

回到程序员的世界之配置环境

JDK:jdk-7u3-windows-i586 安装目录:C:\Dev_Files\Java 配置环境变量: CLASSPATH .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; JAVA_HOME C:\Dev_Files\...

2016-02-03 21:49:03

阅读数 616

评论数 0

squid的安装和使用

安装和配置squid 1 安装squid 1.1 安装环境 ubuntu12.04 squid3.1.19 1.2 服务器端安装步骤 1.2.1 安装squid3、apache2 sudo apt-get install squid sudo apt-get install apac...

2014-08-02 10:41:39

阅读数 799

评论数 0

一些关于Ubuntu使用的记录

一 更改sh的版本 基本概念参考http://baike.baidu.com/view/2096726.htm 具体遇到时候的情况:一个需要csh调用的程序,发现Ubuntu默认的是bash而不是csh 解决方案: (1)安装csh,指令:apt-get install csh; (2)...

2014-04-03 14:54:27

阅读数 780

评论数 0

Python下中文预处理

一 得到原始文本内容 def FileRead(self,filePath): f = open(filePath) raw=f.read() return raw 二 中文分词 参考之前的一篇博客Python下的中文分词实现 d...

2014-03-25 10:31:16

阅读数 3639

评论数 0

Python下的英文预处理

一 得到原始文本内容     def FileRead(self,filePath):         f = open(filePath)         raw=f.read()         return raw 二 去除停用词(nltk.word_tokenize)         t...

2014-03-21 08:14:44

阅读数 15725

评论数 8

Python下的中文分词实现

Python下的中文信息处理的实现(一) 一 安装和测试Python下的中文分词工具 参考http://hi.baidu.com/fooying/item/6ae7a0e26087e8d7eb34c9e8 的帖子“四款python中文分词系统简单测试”。 从评测的结果来看 在Python下可以采...

2014-03-19 21:07:29

阅读数 14547

评论数 0

Shell指令:find指令的使用

find指令的使用 一 基本操作 Find是一个非常有效的工具,它可以遍历当前目录甚至于整个文件系统来查找某些文件或目录。 基本指令格式:  find pathname  -options[-print -exec -ok],操作知识参考以下一些链接: 1. Shell编程--第2章使用f...

2014-03-19 09:15:57

阅读数 1056

评论数 0

Shell指令:远程文件夹拷贝

1 文件夹通过ftp拷贝到远程机器上 ftp是不支持文件夹传输的(sftp可以),如果一定要通过ftp传输文件夹,可以有几种策略: (1)如果条件允许可以使用ftp软件,FlashFTP,CuteFTP都是支持文件夹传输的。 (2)如果无法使用ftp工具可以使用考虑先打成压缩包,然后传过去解...

2014-03-18 23:31:02

阅读数 5034

评论数 0

Deep Learning与自然语言处理学习笔记

在NLP中使用Deep Learning的还很少,有一种说法是认为语言(词、句子、篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号,所以后两者更适合做deep learning来学习特征。但是高度抽象并不意味着没有可能,可以在这个方面进行有益的尝试。 文档...

2014-03-18 14:42:54

阅读数 1674

评论数 0

R语言下的自然语言处理学习笔记一

使用R语言进行自然语言处理学习笔记一 第一章 基础 1 安装 R 是一个有着统计分析功能及强大作图功能的软件系统, 是由奥克兰大学统计学系的Ross Ihaka 和Robert Gentleman 共同创立(两个名字都是R打头,所以叫R语言)。据说R语言很像S语言,但是我也不知道S语言是什么样的。...

2014-03-16 23:10:04

阅读数 8624

评论数 0

ubuntu12.04 Eclipse Python下的nltk环境搭建

简化步骤 1 安装Python2.7 Ubuntu12.04 默认安装Python2.7.3 首先通过下面的命令安装pip,pip是Python的一个安装和管理扩展库的工具 sudo apt-get install python-pip 安装Python开发环境,方便今后编译其他扩展库 sudo...

2014-03-16 12:31:59

阅读数 1491

评论数 0

《使用Python进行自然语言处理》学习笔记八

第六章 学习分类文本 6.1 有监督分类 1 分类概述 分类是为给定的输入选择正确的类标签的任务。在基本的分类任务中,每个输入被认为是与所有其它输入隔离的,并且标签集是预先定义的。基本的分类任务有许多有趣的变种。例如: 在多类分类中, 每个实例可以分配多个标签;在开放性分类中, 标签集是事先没有定...

2014-03-15 22:53:33

阅读数 2072

评论数 0

《使用Python进行自然语言处理》学习笔记七

第五章 分类和标注词汇 5.1 使用词性标注器 1 POS概述 将词汇按它们的词性(parts-of-speech , POS)分类以及相应的标注它们的过程被称为词性标注(part-of-speech tagging, POS tagging )或干脆简称标注。词性也称为词类或词汇范畴。 用于特定...

2014-03-14 20:58:17

阅读数 1889

评论数 0

《使用Python进行自然语言处理》学习笔记六

第四章 编写结构化程序 4.1 回到基础 1 赋值 学过C,习惯了Java再过来学Python,感觉完全像《罗马假日》里安妮公主穿便装去城里撒欢一样。不需要声明,不需要初始化,随便用,太随意了。但是很快我就发现,自由对于理性不足的人来说是充满陷阱的。过于自由的语法提高了对经验的要求,新手很容易出现...

2014-03-14 19:18:17

阅读数 2085

评论数 0

《使用Python进行自然语言处理》学习笔记五

第三章 加工原料文本 3.1 从网络和硬盘访问文本 1 电子书 古腾堡项目的其它文本可以在线获得, 整个过程大概需要几十秒(实验室网络不行是硬伤) 使用raw()可以得到原始的字符串。但是raw得到的数据绝对不是我们能直接拿去分析的,还要经过一些预处理。我们要将字符串分解为词和标点符号,正如我们...

2014-03-13 21:48:32

阅读数 11432

评论数 3

《使用Python进行自然语言处理》学习笔记四

第二章 获得文本语料和词汇资源 2.2 条件频率分布 1条件和事件 频率分布计算观察到的事件,如文本中出现的词汇。条件频率分布需要给每个时间关联一个条件,所以不是处理一个词序列,我们必须处理的是一个配对序列。每对的形式是:(条件,事件) 。 2按文体计数词汇 FreqDist()以一个简...

2014-03-13 11:37:28

阅读数 3238

评论数 0

《使用Python进行自然语言处理》学习笔记三

第二章 获得文本语料和词汇资源 2.1 获取文本语料库 1 古腾堡语料库 Project Gutenberg的语料库包含 >>>import nltk >>>from nltk.corpus import gutenberg >>>gutenb...

2014-03-12 15:58:50

阅读数 2336

评论数 0

《使用python进行自然语言理解》学习笔记二

四 NLTK下的基本操作 1 命名小技巧 (1) 排序表中大写字母出现在小写字母之前; (2) 选择有意义的变量名,它能提醒你代码的含义,也帮助别人读懂你的代码; (3) 经常使用变量来保存计算的中间步骤,尤其是当这样做使代码更容易读懂时; (4) 应该以字母开始,大小写敏感,不能包含空格但可以用...

2014-03-11 21:38:34

阅读数 3592

评论数 0

《使用Python进行自然语言处理》学习笔记一

一 安装NLTK环境 1.1 windows 7 32的安装 1. 安装Python2.7(稳定版本,http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy); 2. 安装NumPy:(http://www.lfd.uci.edu/~gohlke/pyth...

2014-03-11 10:52:05

阅读数 10908

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭