自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(24)
  • 收藏
  • 关注

转载 StanfordCoreNLP中文demo使用的OOM问题及解决

IDE:Intellij idea1. 参考了stackoverflow上诸多答案,一般是修改VM,设置_JAVA_OPTIONS,使用idea64.exe等,但仍然报错。2. 参考此博客后,柳暗花明http://blog.csdn.net/u014749291/article/details/511520073. 特记录下零三天来的摸索历程,万事开头难,请遇到类似错误的不要...

2017-02-08 15:53:00 220

转载 [转]从决策树学习谈到贝叶斯分类算法、EM、HMM

引言最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试之用,甚至以备将来常常回顾思考。行...

2015-08-20 15:42:00 259

转载 [转]用Matplotlib绘制 折线图 散点图 柱状图 圆饼图

Matplotlib是一个Python工具箱,用于科学计算的数据可视化。借助它,Python可以绘制如Matlab和Octave多种多样的数据图形。安装Matplotlib并不是Python的默认组件,需要额外安装。官方下载地址http://matplotlib.org/downloads.html必须下载与自己的Python版本,操作系统类型对应的安装包。...

2015-07-02 14:14:00 410

转载 [转]自然语言分词工具

一.分词软件简介分词算法在20世纪80年代就有研究,不过基于当时的技术条件所限,大多数就是原始的机械分词算法。比如,最大匹配算法,mmseg等。关于原始的机械分词算法http://www.cnblogs.com/alic/articles/1215001.html这篇blog有很详细的介绍。之后随着统计算法在自然语言处理领域地位的奠定以及机器学习的兴起,基于统计和机器学习...

2015-07-01 16:01:00 414

转载 《用Python进行自然语言处理》归纳二

3.加工原料文本3.1 字符串:最底层的文本处理我们侧重于将文本作为一个词链表。通过使用NLTK 中的语料库接口,我们可以忽略这些文本所在的文件。一个词的内容,一个文件的内容在编程语言中是由一个叫做字符串的基本数据类型来表示的。3.2使用Unicode进行文字处理Unicode 支持超过一百万种字符。每个字符分配一个编号,称为编码点。在Python 中,编码点...

2015-07-01 15:25:00 385

转载 《用Python进行自然语言处理》归纳一

1.自然语言工具包(NLTK)NLTK 创建于2001 年,最初是宾州大学计算机与信息科学系计算语言学课程的一部分。从那以后,在数十名贡献者的帮助下不断发展壮大。如今,它已被几十所大学的课程所采纳,并作为许多研究项目的基础。表P -2 列出了NLTK 的一些最重要的模块。这本书提供自然语言处理领域非常方便的入门指南。它可以用来自学,也可以作为自然语言处理或计算语言学课程的教...

2015-07-01 11:36:00 217

转载 python正则表达式入门与提高

自己最近学习了正则表达式,整理了一些关于Python的优秀博文,大家可以拿来参考学习:1. google 搜索引擎排名第一的 ”Python正则表达式“http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html但作为初学者来说,此文比较硬骨头,不建议。2. 深入浅出学习Python 正则表达式http://w...

2015-06-29 17:11:00 91

转载 [转] 机器学习那些事儿

原文为发表于Communications of the ACM 2012年第10期的“A Few Useful Things to Know About Machine Learning”,虽然发表于2012年,但是作者提出的观点对于今天仍有很多借鉴意义。作者:佩德罗·多明戈斯(Pedro Domingos)译者:刘知远 机器学习系统自动地从数据中学习程序。与手工编程...

2015-06-29 17:02:00 188

转载 [转] Python风格规范

Google 开源项目风格指南Python风格规范分号Tip不要在行尾加分号, 也不要用分号将两条命令放在同一行.行长度Tip每行不超过80个字符例外:长的导入模块语句注释里的URL不要使用反斜杠连接行.Python会将圆括号, 中括号和花括号中的行隐式的连接起来, 你可以利用这个特点...

2015-06-23 10:04:00 97

转载 【讨论】关于什么时候使用module,什么时候使用class

一段逻辑既可以做一个module,也可以做一个class老早之前就在纠结这个问题,实在找不出个界限最近和同事讨论了一下,有了新的认识,和大家讨论一下1.module比较关注的是功能方面,它把方法收集在一起,组成一个特殊的上下文,通常表示一种能力,比如Enumerable。2.class就是我们所理解的经典的类,它可以创建实例对象,包含实例变量和类变量,一般通过对象来与外界交流。除...

2015-06-05 16:35:00 277

转载 菜鸟利用python处理大文本数据的血泪路

1. 源数据 Like this:格式: .csv和.txt内容:(几十万行)大小:64.7M 和64.8M电脑:i5-2540M 4G内存2.数据更新检测:这是一些位置信息图,1和2分别是同一地区不同时期采集的数据,现检测更新的信息。假使以NDP_ID这列数据作为POI的唯一标志码。设定:如果NDP_ID同时在两个文件中都存在,则判定为没有改...

2015-06-05 15:51:00 139

转载 Python:数字

一、数字简介数字可以直接访问,是不可更改并且不可分割的原子类型,这些在标准类型的分类中都谈到了。不可更改意味着变更数字值的实质是新对象的创建。当然,这些对于程序员来说都是透明的,不需过多考虑。1.对象的创建和赋值12345#像大多数脚本语言一样,无需指定类型...

2015-06-03 09:58:00 142

转载 Python:字符串

一、序列的概念序列是容器类型,顾名思义,可以想象,“成员”们站成了有序的队列,我们从0开始进行对每个成员进行标记,0,1,2,3,...,这样,便可以通过下标访问序列的一个或几个成员,就像C语言中的数组一样,这很好理解。二、序列类型操作符(以下操作符对所有序列类型都适用)1.成员关系操作符(in,not in)1234...

2015-06-03 09:57:00 184

转载 Python:列表,元组

一、列表和字符串一样,列表也是序列类型,因此可以通过下标或者切片操作访问一个或者多个元素。但是,不一样的,列表是容器类型,是可以进行修改、更新的,即当我们进行修改列表元素,加入元素等操作的时候,是对原始对象自身的直接变更,而非新对象的创建。列表可以以任何类型对象作为自己的元素(包括用户自定义类型),而且更为灵活的是,一个列表中可以同时容纳不同类型的对象(这是C/C++中的数组...

2015-06-03 09:55:00 139

转载 Python:映像、集合

一、字典字典(dictionary)是Python中唯一的“映射”类型,映射这个概念在高中就学过:一个函数f将键(key, 定义域)映射到值(value, 值域)。这样的函数在字典中可以称为哈希(HASH)函数。通过哈希函数可以对键通过计算快速得到值的位置,而避免了线性搜索,极大的提高了数据值的存取效率;此外,字典是容器类型,可更新模型。基于这些特性,字典通常被认为是Pyt...

2015-06-03 09:54:00 157

转载 [转]Python文件操作

前言这里的“文件”不单单指磁盘上的普通文件,也指代任何抽象层面上的文件。例如:通过URL打开一个Web页面“文件”,Unix系统下进程间通讯也是通过抽象的进程“文件”进行的。由于使用了统一的接口,从而统一了各种抽象类型及非抽象类型文件的操作方式。文件操作的重要性无需多言,要想将计算机运算的结果以一定形式保存下来,文件是必须的。一、内建函数open()和file()op...

2015-06-03 09:52:00 92

转载 [转] Python自动单元测试框架

一、软件测试大型软件系统的开发是一个很复杂的过程,其中因为人的因素而所产生的错误非常多,因此软件在开发过程必须要有相应的质量保证活动,而软件测试则是保证质量的关键措施。正像软件熵(software entropy)所描述的那样:一个程序从设计很好的状态开始,随着新的功能不断地加入,程序逐渐地失去了原有的结构,最终变成了一团乱麻(其实最初的"很好的状态"得加个问号)。测试的目的说起来其...

2015-05-31 15:39:00 90

转载 Python 批量创建同文件名的特定后缀文件

看了很多批量创建文件和文件批量格式转换的code,感觉杀鸡焉用牛刀,自己写了几行轻量级的拿来给大家参考:在out_dir目录下批量创建与in_dir目录下同文件名但后缀不同的文件。in_dir = "D:\\data\\State_310000\\"out_dir = "D:\\data\\State_310000\\output\\"files = os.listdir(in_...

2015-05-21 11:27:00 344

转载 Python的数据处理学习(三)

三.类的继承Python 的class可以允许从零开始创建一个定制类,就像文章(二)创建Athlete类一样,也可以通过继承现有的其他类类创建一个类,这也包括用List、set和dict提供的python内置结构类,通过继承创建的这些类称为子类。(1) 原有的类class Athlete: def __init__(self,a_name...

2014-12-29 16:03:00 114

转载 WebGIS的大众化服务

WebGIS是Web技术与GIS相结合的产物。WebGIS的真正意义在于,它将GIS从专业应用推向了大众化服务,同时为地理信息共享提供了方便而有效的途径。一.ESRI大会关于WebGIS的报告 纵观近几年来IT与空间技术的发展,云计算、大数据、物联网、LBS、无人机、倾斜摄影等新技术层出不穷,GIS的应用需求也发生了巨大变化,在线的内容、便捷的协作方式、随时随地的多设备访问...

2014-12-29 14:56:00 601

转载 Python的数据处理学习(二)

本文参考Paul Barry所著的《Head First Python》一书,参考代码均可由http://python.itcarlow.ie/站点下载。本文若有任何谬误希望不吝赐教~二. 代码模块1. 准备学习(1)数据读取with open(james.txt) as jaf:#打开文件 data = jaf.readline(...

2014-12-29 14:48:00 145

转载 Python的数据处理学习(一)

本文参考Paul Barry所著的《Head First Python》一书,参考代码均可由http://python.itcarlow.ie/站点下载本文有任何谬误可以直接联系本人lina.you@qq.com一. 背景了解1. 基本需求:Kelly教练负责James,Sarah,Julie,Mikey四人的训练,细心的Kelly教练为每个选手建立了以姓名命名的txt...

2014-12-29 14:20:00 115

转载 Windows7 32位下opencv与python2.66的环境配置

刚接触Python和OpenCV,对两者都不太了解,因为今后学习会使用到这两种工具,特此学习配置。PS:本帖适用小白。一. 需要的文件1. OpenCV可用OpenCV-2.3.1-win-superpack.exe自解压文件,直接运行,默认安装到opencv文件夹里。下载链接:http://opencv.org/downloads.html(官方网址)...

2014-12-24 21:27:00 87

转载 关于人的存在和声明的价值(摘录于《心法》)

“人的存在有价值吗?” “人生于世,意义何在?”当有人提出这类有关“人”的本质的问题时,我会做如下回答: “地球上......不!整个宇宙间存在的一切,都是因为具备存在的必要性而存在着。无论多么微小的东西,都是必要的。人类自不必说,森罗万象、一切事物都有存在的理由。哪怕是生长在路旁的一株杂草,滚落在街边的一粒石子,也因为具有存在的必然性而存在着。不管如何渺小的存在,如...

2014-12-03 22:18:00 127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除