- 博客(5)
- 资源 (8)
- 问答 (1)
- 收藏
- 关注
原创 失败的方案
去年设计了一个MapReduce的单机多线程C++版实现,由于没有充分考虑磁盘读写瓶颈,性能提不上去,宣告失败. 通过这个案例有如下几个方面的思考: 1.MapReduce是集群级别的应用,处理的解决单机无法解决的大文件,海量数据的处理问题.HDFS将文件分块,并将他们分部在不同的节点上,运算的时候多个节点同时进行.数据尽量不通过网络传递,这就是为了避免网络传输影响速度.我的程序是将数据全部集中在
2010-02-28 10:30:00 658
原创 正则表达式中Matcher的group()、start()、end()带参方法解析
最近学习正则表达式,发现Java中的一些术语与其他地方描述的有所差异。比如Java正则表达式中的“组”概念与《正则表达式必知必会》一书中讲述的“子表达式”其实是一样的,只是表述不同而已。由此也引发了使用JavaAPI时对group(int group)、start(int group)、end(int group)不是太理解。在阅读了关于正则表达式问题:有谁用过Matcher类的g
2010-02-26 00:48:00 14277
原创 使用ICU进行字符集探测 文档译稿
使用ICU进行字符集探测文档译稿原文http://userguide.icu-project.org/conversion/detectionCharacter Set Detection 字符集探测Overview 概述 字符集探测是对未知格式的字符数据进行确定字符集或者编码的过程。这充其量是一个使用统计学和启发式方法进行的一项不精确的操作。也正因如此,如果可以提供一种语言的至少几
2010-02-06 13:24:00 3345
原创 使用ICU4J探测文档编码
网页源码的编码探测一般有两种方式,一种是通过分析网页源码中Meta信息,比如contentType,来取得编码,但是某些网页不的contentType中不含任何编码信息,这时需要通过第二种方式进行探测,第二种是使用统计学和启发式方法对网页源码进行编码探测。ICU4J就是基于第二种方式的类库。由IBM提供。下面的例子演示了一个简单的探测过程。package org.mingyuan.icu4j;im
2010-02-04 16:43:00 3459
原创 GBK、GB18030、GB2312 区别
概括一下:GB18030向下兼容GBK、GB2312。GBK向下兼容GB2312 以下内容转自:http://blog.sina.com.cn/s/blog_62c074450100fllj.htmlGBK、GB18030、GB2312 区别 1、 标准标准编号:GB 2312-1980标准名称:信息交换用汉字编码字符集 基本集标准状态:现行英文标题:Code of chinese graph
2010-02-03 11:28:00 1134
MSXML6.0 SDK
2009-08-30
Linux - Teach Yourself Shell Programming in 24 Hours
2008-04-20
Java与c++进行Socket通信问题--求帮助
2011-05-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人