在用Python做点关于互联网上的汉字使用统计分析。发现中文语料库好少,更新更少。只好先写个程序每天自动拉些站点的页面下来提取汉字了,家里的PC机也只好24小时开着,哪去搞个支持LAMP(PY3K)的不花钱的服务器呢?呵呵,上天啊,赐给我个精壮的服务器吧!
找了个汉字读音清单文件,不过发现不全,从网上发现里面没有的汉字可惜读音没法补。
在用Python做点关于互联网上的汉字使用统计分析。发现中文语料库好少,更新更少。只好先写个程序每天自动拉些站点的页面下来提取汉字了,家里的PC机也只好24小时开着,哪去搞个支持LAMP(PY3K)的不花钱的服务器呢?呵呵,上天啊,赐给我个精壮的服务器吧!
找了个汉字读音清单文件,不过发现不全,从网上发现里面没有的汉字可惜读音没法补。