自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 Double Array Trie 的Python实现

不多介绍,可自行Google,或者其它关键词: "datrie"放代码链接:double_array_trie.py因为也是一段学习代码,参考的文章都记在里面了,主要参考github项目: komiya-atsushi/darts-java。另外,增加了一个从某叶子节点回溯得到字符串的方法;没增加删除节点方法的原因是,复杂度较高,且暂时没有必要。当然,代码正确性和科学性还有待验...

2018-05-16 16:46:00 497

转载 Python 获得汉字笔画

通过unihan的文件来实现。只要是unihan中有kTotalStrokes字段,获取其笔画数。Hash也是非常简单清楚的,但想到这些unicode其实会有一个分布规律,就记录了一下,利用此性质通过数组方式来获取笔画。记录了一下unicode的范围start: [13311, 19968, 63744, 131072, 173824, 177984, 178208, 1949...

2018-05-06 11:02:00 4862

转载 Unihan(统汉字)常用字段介绍

0 背景1 文件1.1 IRG Sources1.2 Dictionary Indices1.3 Dictionary-like Data1.4 Other Mappings1.5 Radical-stroke Indices1.6 Readings1.7 Variants2 相关知识点0 背景统汉字数据库是Unicode标准包含的中日韩统一表意文字集体知识...

2018-05-05 17:44:00 699

转载 [译] Z-variant (Z变体)

阅读目录1. Z轴上的区别2. 问题Unihan 的 kZVariant 字段译自: en.wikipedia.org/wiki/Z-variant | 已发布zh.wiki在Unicode中,如果两个字形共享相同的词源(etymology),但外观和Unicode字符编码稍有不同,则两个字形互为Z变体(通常拼写为zVariants)。例如,Unicode字符U+8AA...

2018-05-05 08:39:00 151

转载 Python3 中日语料分句实现

0. 背景因为最近在看平行语料句对齐、词对齐的缘故,想做对齐的话需要先做一个分句。一开始利用正则和引号开关标志写了一种方法,中间想到一个小技巧,写出来比较简单通用,想把这一小段代码分享一下。1. 原理一些情况下,标点也算是比较好的一个特征,这里就想尽量正确的切分。主要考虑到的问题包括:分隔符保留引号内的句子同一处多个标点决定引号内不切分之后,利用一点小技巧使得思路非...

2018-04-27 09:41:00 273

转载 Ubuntu更换硬盘

0x00背景:目前ubuntu用的是一个80g的硬盘( 一开始没买硬盘,直接拆了一个老老老老的机子来用),系统16.04, 只有一个/分区 ( /dev/sdb1 ) 。新的硬盘是一块256G的SSD,新装了一个系统,除了2G的swap,其他都归 / 目录了( /dev/sda1 )。0x01一些有用的命令:fdisk -l # 查看分区du -lh # 查看文件...

2017-01-19 22:33:00 195

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除