java 笔画排序_Java汉字排序(3)按笔划排序

最新推荐文章于 2025-02-19 12:15:17 发布

山同气

最新推荐文章于 2025-02-19 12:15:17 发布

阅读量893

点赞数

文章标签： java 笔画排序

本文链接：https://blog.csdn.net/weixin_35899665/article/details/114074490

版权

本文介绍了如何通过Java编程实现按笔画数排序的比较器，涉及从Unicode编码表创建、Excel排序到笔画数计算和矫正，以解决汉字笔画排序问题。关键步骤包括生成笔画数表、编写分析程序和创建笔画比较器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对于包含汉字的字符串来说，排序的方式主要有两种：一种是拼音，一种是笔画。

本文就讲述如何实现按笔划排序的比较器(Comparator)。

作者：Jeff 发表于：2007年12月21日 11:27 最后更新于： 2007年12月21日 12:38

http://www.blogjava.net/jeff-lau/archive/2007/12/21/169257.html

笔画排序

要按笔画排序，就要实现笔画比较器。

class StokeComparator implements Comparator

如果有个方法可以求得汉字的笔画数，上面的功能就很容易实现。如何求一个汉字的笔画数？最容易想到的就是查表法。建一个汉字笔画数表，如：

汉字

Unicode编码

笔画数

一

U4E00

二

U4E8C

龍

U9F8D

...

表二

如果是连续的、按unicode编码排好顺序的表，实际存储在笔画数表中的只需最后一列就够了。

那如何建这个表呢？这个表存储在哪里？

建汉字笔画数表

现在大多数系统还只能支持Unicode中的基本汉字那部分汉字，编码从U9FA6-U9FBF。所以我们只建这部分汉字的笔画表。汉字笔画数表，我们可以按照下面的方法生成：

用java程序生成一个文本文件(Chinese.csv)。包括所有的从U9FA6-U9FBF的字符的编码和文字。利用excel的按笔画排序功能，对Chinese.csv文件中的内容排序。

编写Java程序分析Chinese.csv文件，求得笔画数, 生成ChineseStroke.csv。矫正笔画数，重新按汉字的Unicode编码对ChineseStroke.csv文件排序。

只保留ChineseStroke.csv文件的最后一列，生成Stroke.csv。

生成Chinese.csv的Java程序

1 /**2 * @author Jeff3 *4 * Copyright (c) 复制或转载本文，请保留该注释。5 */

6 package chinese.utility.preface;7

8 import java.io.IOException;9 import java.io.PrintWriter;10

11 public classChineseCoder {12

13 public static voidmain(String[] args) throws IOException {14 PrintWriter out = new PrintWriter("Chinese.csv");15 //基本汉字

16 for (char c = 0x4E00; c <= 0x9FA5; c++) {17 out.println((int) c + "," +c);18 }19 out.flush();20 out.close();21

22 }23

24 }

初始化笔画数

从Excel排序过后的Chinese.csv文件来看，排好序的文件还是有一定规律的。在文件的第9行-12行可以看出：逐行扫描的时候，当unicode会变小了，笔画数也就加1。

20059,乛

20101,亅

19969,丁

19970,丂

用下面的Java程序分析吧。

1 /**2 * @author Jeff3 *4 * Copyright (c) 复制或转载本文，请保留该注释。5 */

6 package chinese.utility.preface;7

8 import java.io.File;9 import java.io.IOException;10 import java.io.PrintWriter;11 import java.util.Scanner;12

13 public classStroke {14

15 /**16 * @param args17 * @throws IOException18 */

19 public static voidmain(String[] args) throws IOException {20 Scanner in = new Scanner(new File("Chinese.csv"));21 PrintWriter out = new PrintWriter("ChineseStroke.csv");22 String oldLine = "999999";23 int stroke = 0;24 while (in.hasNextLine()) {25 String line = in.nextLine();26 if (line.compareTo(oldLine) < 0) {27 stroke++;28 }29 oldLine =line;30 out.println(line + "," +stroke);31 }32 out.flush();33 out.close();34 in.close();35 }36

37 }

上面用的这个规律有问题吗？有问题，从ChineseStroke.csv文件抽取最后几个汉字就发现，笔画数不对。为什么呢？

笔画数可能不是连续的。

n+1笔画数的最小Unicode码可能比n笔画数的最大Unicode码要大

我们要人工核对ChineseStroke文件，但只要核对在笔画变化的那几个汉字的笔画数。最后，我发现，只有笔画数多于30的少数几个汉字的笔画数不对。核对并矫正笔画数后，用Excel按Unicode重新排序，去掉汉字和Unicode两列，只保留笔画数那列，得到Stroke.csv文件。

求得笔画数的方法和笔画比较器方法

求得笔画数的方法测试代码：

1 /**2 * @author Jeff3 *4 * Copyright (c) 复制或转载本文，请保留该注释。5 */

6 package chinese.utility.test;7

8 import staticorg.junit.Assert.assertEquals;9

10 import org.junit.Before;11 import org.junit.Test;12 import chinese.utility.Chinese;13

14 public classStrokeTest {15

16 Chinese chinese;17

18 @Before19 public voidsetUp() {20 chinese = newChinese();21 }22

23 @Test24 public voidtestStroke() {25 assertEquals(1, chinese.stroke('一'));26 }27

28 @Test29 public voidtestStroke2() {30 assertEquals(2, chinese.stroke('二'));31 }32

33 @Test34 public voidtestStroke16() {35 assertEquals(16, chinese.stroke('龍'));36 }37

38 @Test39 public voidtestStrokeABC() {40 assertEquals(-1, chinese.stroke('a'));41 }42

43 }

求得笔画数的方法代码

1 /**2 * @author Jeff3 *4 * Copyright (c) 复制或转载本文，请保留该注释。5 */

6 package chinese.utility;7

8 import java.util.Comparator;9

10 public class StrokeComparator implements Comparator{11

12 public intcompare(String o1, String o2) {13

14 Chinese chinese = newChinese();15

16 for (int i = 0; i < o1.length() && i < o2.length(); i++) {17 int codePoint1 =o1.codePointAt(i);18 int codePoint2 =o2.codePointAt(i);19 if (codePoint1 ==codePoint2)20 continue;21

22 int stroke1 =chinese.stroke(codePoint1);23 int stroke2 =chinese.stroke(codePoint2);24

25 if (stroke1 < 0 || stroke2 < 0) {26 return codePoint1 -codePoint2;27 }28

29 if (stroke1 !=stroke2) {30 return stroke1 -stroke2;31 }32 }33

34 return o1.length() -o2.length();35 }36 }

笔画比较器测试

1 /**2 * @author Jeff3 *4 * Copyright (c) 复制或转载本文，请保留该注释。5 */

6 package chinese.utility.test;7

8 import java.util.Comparator;9

10 import org.junit.Assert;11 import org.junit.Before;12 import org.junit.Test;13

14 import chinese.utility.StrokeComparator;15

16 public classStrokeComparatorTest {17

18 private Comparatorcomparator;19

20 @Before21 public voidsetUp() {22 comparator = newStrokeComparator();23 }24

25 /**26 * 相同笔画数27 */

28 @Test29 public voidtestCompareEquals() {30 Assert.assertTrue(comparator.compare("一", "丨") == 0);31 }32

33 /**34 * 不同笔画数35 */

36 @Test37 public voidtestCompare() {38 Assert.assertTrue(comparator.compare("一", "二") < 0);39 Assert.assertTrue(comparator.compare("唔", "马") > 0);40 }41

42 /**43 * 长度不同44 */

45 @Test46 public voidtestCompareDefficultLength() {47 Assert.assertTrue(comparator.compare("二", "二一") < 0);48 }49

50 /**51 * 非汉字的比较52 */

53 @Test54 public voidtestABC() {55 Assert.assertTrue(comparator.compare("一", "a") > 0);56 Assert.assertTrue(comparator.compare("a", "b") < 0);57 }58 }

笔画比较器

1 /**2 * @author Jeff3 *4 * Copyright (c) 复制或转载本文，请保留该注释。5 */

6 package chinese.utility.test;7

8 import java.util.Comparator;9

10 import org.junit.Assert;11 import org.junit.Before;12 import org.junit.Test;13

14 import chinese.utility.StrokeComparator;15

16 public classStrokeComparatorTest {17

18 private Comparatorcomparator;19

20 @Before21 public voidsetUp() {22 comparator = newStrokeComparator();23 }24

25 /**26 * 相同笔画数27 */

28 @Test29 public voidtestCompareEquals() {30 Assert.assertTrue(comparator.compare("一", "丨") == 0);31 }32

33 /**34 * 不同笔画数35 */

36 @Test37 public voidtestCompare() {38 Assert.assertTrue(comparator.compare("一", "二") < 0);39 Assert.assertTrue(comparator.compare("唔", "马") > 0);40 }41

42 /**43 * 长度不同44 */

45 @Test46 public voidtestCompareDefficultLength() {47 Assert.assertTrue(comparator.compare("二", "二一") < 0);48 }49

50 /**51 * 非汉字的比较52 */

53 @Test54 public voidtestABC() {55 Assert.assertTrue(comparator.compare("一", "a") > 0);56 Assert.assertTrue(comparator.compare("a", "b") < 0);57 }58 }

其他程序的汉字排序

Microsoft在这方面做得比较好。如Sql server 2000，Word和Excel都能按拼音和笔画排序。而Oracle只能是采取宽松拼音排序法。