- 博客(6)
- 资源 (12)
- 收藏
- 关注
原创 OutputStreamWriter在完成write()后 一定要立即关闭,不然写入内容不完整!
在开发中,同一个程序中需要两次写文件,通过OutputStreamWriter来实现。刚开始为了管理方便,我把这两个操作的关闭过程统一都放到了程序的最后,但是发现写入的内容变得不完整,无论文本长短,最后总是有大约几百个字符没有写进去。后来在参考以往写的代码中才忽然意识到这个问题,就又把OutputStreamWriter的关闭操作紧跟着放到write()之后,然后就又正常了!
2013-07-27 11:52:51 6405
原创 正则表达式中环视的一个简单示例
由于开发工作需要对文本中内容进行过滤,删除或替换掉一些无用的或不符合要求的信息。于是发现一个问题,某一类工程性文本中,用到很多英文写法相同、但含义不同的单位,需要将其分别转为真实含义对应的汉字。比如:"粘度为17s,移动距离为350厘米,要求混凝土必须内实外光。振捣时间为30s。",很明显第一个s是粘度的单位,第二s是时间单位,现在需要将文本中所有表示时间的s替换为“秒”,在朋友指引下,发现通过正
2013-07-21 06:18:56 1061
原创 jacob 实现Office Word文件格式转换 docTotxt,docTopdf,docxTodoc,pdfTotxt ...
关于jacob用法,百度一下就会发现几乎都是复制2004年一个代码,那段代码实现的是从一个目录读取所有doc文件,然后把它转html格式。 为了便习学习和使用,我把代码看懂后精简了一下,得出不少新结论,拿出来和大家分享。1、jacob的安装配置下载jacob:http://sourceforge.net/projects/jacob-project/,解压后得到如下文件:与处理其他
2013-07-20 16:24:21 2794 2
原创 Python 中文分词工具 ——结巴分词的使用方法总结
结巴分词工具的安装及基本用法,昨天的博客中已经有所描述。今天要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。示例代码如下:#coding=utf-8import jiebaimport jieba.posseg as psegimport timet1=time.time()f=open("t_with_splitter.txt","r")
2013-07-08 21:38:09 13204 12
原创 Python 结巴分词在使用过程中遇到的问题及对策
结巴分词是Python语言中效果最好的分词工具,其功能包括:分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下。官网地址:https://github.com/fxsjy/jieba1、安装。按照官网上的说法,有三种安装方式,第一种是全自动安装:easy_install jieba 或者 pi
2013-07-08 00:43:36 10104 3
转载 Python 中文分句
今天在某论坛中看到应用Python对中文进行分句的源码(http://www.corpus4u.org/forum/showthread.php?s=86a8e08ccda003206c8f8d66c011df67&t=8662&page=2),原理很简单,帖上来传播一下。注释是我自己加上去的。向原作者致谢!# coding: utf-8 #设置分句的标志符号;可以根据实际需要进行修改
2013-07-06 22:31:56 13570 2
php+mysql+jquery 生成静态网页(含后台编辑功能)
2014-12-23
腾讯UIDesigner1.0 for pc
2014-07-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人