2013年07月_laoyaotask

12月 11月 07月 06月 05月 04月

原创 OutputStreamWriter在完成write()后一定要立即关闭，不然写入内容不完整！

在开发中，同一个程序中需要两次写文件，通过OutputStreamWriter来实现。刚开始为了管理方便，我把这两个操作的关闭过程统一都放到了程序的最后，但是发现写入的内容变得不完整，无论文本长短，最后总是有大约几百个字符没有写进去。后来在参考以往写的代码中才忽然意识到这个问题，就又把OutputStreamWriter的关闭操作紧跟着放到write()之后，然后就又正常了！

2013-07-27 11:52:51 6405

原创正则表达式中环视的一个简单示例

由于开发工作需要对文本中内容进行过滤，删除或替换掉一些无用的或不符合要求的信息。于是发现一个问题，某一类工程性文本中，用到很多英文写法相同、但含义不同的单位，需要将其分别转为真实含义对应的汉字。比如："粘度为17s，移动距离为350厘米，要求混凝土必须内实外光。振捣时间为30s。"，很明显第一个s是粘度的单位，第二s是时间单位，现在需要将文本中所有表示时间的s替换为“秒”，在朋友指引下，发现通过正

2013-07-21 06:18:56 1061

原创 jacob 实现Office Word文件格式转换 docTotxt,docTopdf,docxTodoc,pdfTotxt ...

关于jacob用法，百度一下就会发现几乎都是复制2004年一个代码，那段代码实现的是从一个目录读取所有doc文件，然后把它转html格式。为了便习学习和使用，我把代码看懂后精简了一下，得出不少新结论，拿出来和大家分享。1、jacob的安装配置下载jacob：http://sourceforge.net/projects/jacob-project/，解压后得到如下文件：与处理其他

2013-07-20 16:24:21 2794 2

原创 Python 中文分词工具 ——结巴分词的使用方法总结

结巴分词工具的安装及基本用法，昨天的博客中已经有所描述。今天要说的内容与实际应用更贴近——从文本中读取中文信息，利用结巴分词工具进行分词及词性标注。示例代码如下：#coding=utf-8import jiebaimport jieba.posseg as psegimport timet1=time.time()f=open("t_with_splitter.txt","r")

2013-07-08 21:38:09 13204 12

原创 Python 结巴分词在使用过程中遇到的问题及对策

结巴分词是Python语言中效果最好的分词工具，其功能包括：分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具，在安装与使用过程中遇到一些问题，现在把自己的一些方法帖出来分享一下。官网地址：https://github.com/fxsjy/jieba1、安装。按照官网上的说法，有三种安装方式，第一种是全自动安装：easy_install jieba 或者 pi

2013-07-08 00:43:36 10104 3

转载 Python 中文分句

今天在某论坛中看到应用Python对中文进行分句的源码（http://www.corpus4u.org/forum/showthread.php?s=86a8e08ccda003206c8f8d66c011df67&t=8662&page=2），原理很简单，帖上来传播一下。注释是我自己加上去的。向原作者致谢！# coding: utf-8 #设置分句的标志符号；可以根据实际需要进行修改

2013-07-06 22:31:56 13570 2