写一个自己的动态语言吧。初学乍练的。

最新推荐文章于 2024-11-14 15:49:21 发布

iteye_9142

最新推荐文章于 2024-11-14 15:49:21 发布

阅读量141

点赞数

分类专栏：编译原理文章标签： D语言正则表达式 C# C C++

本文链接：https://blog.csdn.net/iteye_9142/article/details/81824948

版权

编译原理专栏收录该内容

3 篇文章 0 订阅

订阅专栏

动态语言大行其道，不过还有不少公司在用着java 。很大部分人也会java 。

所以用java 来开发自己的一个动态语言不错。反正总是要东西打发内心的无聊，治疗枯燥的工作对人心理的创伤。

搞这么大个题目，招来不少人。高手也会来吧？本人编译原理原来上学就没学好，这也算是初学乍练，您看得高兴捧个人场，看得不高兴多多指教，以免我误导了群众。

首先我必须承认我这话说大了。我目前只是写到了词法分析器和一个表达式计算。距离动态语言还差的远。我也很怀疑我有时间真的写完这些。今天有空就写点。本文的宗旨就是简单。主要是复杂的东东我也说不出来。

编译原理上过这课的都知道很无聊。工作两年基本忘掉残留下来的概念看到了热泪盈眶的想不起来。咱就再回忆一遍吧。

第一个 DFA 确定状态机。

先不说这是啥。看一个例子，为了说明状态机的作用和能力得绕点路先撇开编译原理抛开概念看看怎么一步步发现这个DFA。如很解析xml html？

这是我在做一个手机浏览器的时候遇到的问题，虽然有很多库，但是手机上没有或者有不适合，于是自己搞一个。这里就不争论 “轮子” 的问题了。

<p> xxxxx </p>

这是典型的一段xml 。注意看，主要分两部分 ‘<’ 和 ‘>’ 括住的部分,和之外的东西也就是 ‘>’ 和 ‘<’ 括住的部分。其实就是把tag 和内容区分开。分出如下：

p xxxxx /p 3块

于是写代码如下

     state = 初始状态
     for char in htmlstr{
         if 初始状态{
            if(char == '<'){
               state = tag状态
            }
         }else if tag状态{
            if(char == '>'){
               state = 内容状态
            }else{
              tagstr += char;
            }
         }else if 内容状态{
            if(char == '<'){
               state = tag状态
            }else{
               contentstr += char;
            }
         }

呵呵第一步把tag 和内容分开了。有同学问 < > 不会乱出现么？规则上规定xml 中< >必须是tag 的遇到和要转义就是用 &lt 这种东东代表一下。但是也会遇到不转义的写错的这个只要加上写判断容错即可这里不做详述。

tag 里边还有东东啊

<img src="url" alt="xxxx">

同理可以分状态处理之。找到tag名字img之前叫做状态1 ,然后遇到空格变为状态2，然后遇到=号变为状态3 ..... 当然这里的逻辑比上边复杂一些，其实也就是又臭又长些。

上边说的就是一个原始的用 if else 构成的状态机。状态机就是根据输入改变到不同的状态然后做不同的处理。简单的通俗的说状态机 == 装逼的switch

这里

http://code.google.com/p/tagparser/

有源码 python 和 java 的。写的都比较乱凑合着看吧，不大也就是200行左右解析html xml 之流。

python 版本的还有一个抓取tianya 论坛的一个例子不知道现在还能用吗很长时间了

今天就到这吧。

明天继续....

接昨天

if else 或者 switch 构成的状态机非常简陋。状态越来越多的时候变得乱七八糟。所以要分解包装一下。

状态机行为就是：

----输入---->switch----改变状态--->

在游戏编程 Ai设计中经常用到，不过我们这里只主要是谈编译，所以输入就变成了一个字符输出为一个状态。一直说“状态” 这个东西那就把它搞成一个类吧

    Java代码  
  
       class State{  
       StateType type = StateType.BEGIN;  
  
public State nextState(char i){  
    return null;  
}  

nextState 就是主要部分了输入为一个字符串输出也就是返回值为一个State。看看如何用这个State来识别一个整型数字例如 1000 100 99 .....

建立一个IntState 然后重载 State：

    Java代码  
  
  class IntState extends State{  
      public State nextState(char c){  
            if(c >= '0' && c <= '9'){  
                  return this;  
            }else{  
                  return null;  
            }  
      }  
}  

这个比较简单可以生成一个 IntSate intState = new IntState() 看看它如何工作

    Java代码  
  
 String prostr  = "192321 2312 3243";  
 String buff = "";  
for(int i=0 ; i<prostr.length() ; i++){  
       char c = prostr.charAt(i);  
       State st = intStat.nextSate(c);  
        buff += c;  
       if(st == null){  
            print buff;  
       }  

其结果就是把字符串中的整型数字给挑出来了。这看起来很容易不是么？等等如果它没有split 强大费这种力气干么？实际上程序文件包含的字符串比这复杂的多，有int float string 变量关键字各种符号.... ....................木有关系统统没有关系每一个建立一个state即可

如 floatState stringState 看看如何编写，这里只写出nextState 函数它们都是继承自State类

    Java代码  
  
 floatSate：  
                  public State nextState(char i){  
if(isDigit(i)){  
    return floatSt;  
}else if(i == '.' || isAlpha(i)){  // 浮点数状态下 输入“.”  和字符 返回deny状态 说明词法错误，这里也可以做成抛异常  
    return deny;  
}else{  
    return null;  //如遇到空格 或者其他的字符 则说明词法完成 顺利通过  
}  
  
 spaceState     识别空白的字符  
  
                  public State nextState(char i){  
if(isSpace(i)){  
    return spaceSt;  
}else{  
    return null;  
}  

常用的函数

    Java代码  
  
public static boolean isAlpha(char i){  
    return (i>='a' &&  i<='z') || (i>='A' && i<='Z');  
    }  
      
public static boolean isDigit(char i){  
    return (i>='0' &&  i<='9') ;  
    }  
      
public static boolean isSpace(char i){  
    return (i==' ' || i=='\r' || i=='\n' || i=='\t') ;  
    }  

识别单个的符号更简单了直接用State 生成一个不用继承，然后把它放入到一个字典里在扫描程序字符串的时候可以快速查到。如下

    Java代码  
  
map.put("(", new State(StateType.LPARENT));  

这里还需要一个开始的状态，编译开始时从一个字符开始扫描。第一个字符有可能是整型数字也可能是字母也可能变量。可以如下编写

    Java代码  
  
   
  
public State nextState(char i){  
                if(isAlpha(i) || i == '_'){    //如第一个字符遇见字母 ，那么接下来就返回 identState ，它用来识别变量和关键字这类的。  
                    return identSt;  
                }else if(isDigit(i)){           //如是数字 看开头是0打头的 有可能是0x 也可是8位的 ，如果不是0 那就是整型的。当然整型半截可能遇见“.”  
                    if(i == '0'){              //在整型状态下遇见"." 就返回floatState 当作float识别。 这里用了子状态 。其实可以多生成些状态不要子  
                        intSt.subtype = 8160;  //状态  
                    }else{  
                        intSt.subtype = 10;  
                    }  
                    return intSt;  
                }else if(i == '\"'){  // 引号出现说明后边是 字符串  
                    return strSt;  
                }else if(isSpace(i)){  
                    return spaceSt;  
                }else {              // 如果是其他符号 看看是不是单个的 {} []: ,. 之类的  
                    return smap.get(String.valueOf(i));  
                }  
            }  

一旦一个状态识别完就会返回null 说明一个词义被确认而且这个词是整型还是浮点型还是字符串 ... 都是最后的那个状态类型。这时候可以根据类型把字符串转化为java 的类型了。

其中遇到的一些小问题。如第一个字符是 0 ,就有几种可能十六进制0x7873 浮点数0.423 八进制0632，如何确定用intSate 还是用floatState ？

这里我程序里是假定是整型先如遇到“.” 状态机返回floatSate这样就跳到了浮点型识别，在区分八进制还是十六进制的时候用了子状态。其实这么做不好。最好引入中间状态如叫做 zeroState .在这个状态里就可以区分到底是用那个状态机去识别。因为再往后一个字符就可以确定是什么类型如果是‘x’就是十六位整型。

这种情况很常见，就是一个字符出现不能确定状态该怎么走，方法就是引入中间状态。最后实现了每个状态输入一个字符就可以确定下一个状态，这也是为什么叫做有限确定状态机 DFA 。一个输入可能对应多个状态的叫做非确定状态机 NFA 。很恶心的书上把简单的概念都写得抽象的吓人，真不知道为啥？为了严谨？写书给人看的搞的跟给机器写书一样。隐隐约约记得书上像些咒语一样写着如何把NFA 转为DFA ..... 压根我看不明白。

状态机的应用还很多。其实正则就是状态机实现的。有的是用NFA 有的是用DFA规则。表现的区别如匹配（aaa|bbb|cdd）。

    Java代码  
  
字符串 ： abcd  
  
DFA 过程：  先看和 aaa 匹配么再和bbb匹配 在和ccc匹配  
  
NFA过程： 先看abcd的第一个字符 和 aaa bbb ccc 那个匹配 。然后在看第二个字符b ...  
  
有点类似一个深度优先 一个是广度优先。