nlp
文章平均质量分 78
老马啸西风
Github: https://github.com/houbb
Email:houbinbin.echo@gmail.com
展开
-
jieba-fenci 结巴分词之词性标注实现思路 speechTagging segment
为了便于大家学习,项目开源地址如下,欢迎 fork+star 鼓励一下老马~原创 2023-12-19 01:00:52 · 481 阅读 · 0 评论 -
jieba-fenci 结巴分词与繁简体转换 segment
如果采用自定义分词,其实在分词的时候,可以做到同时进行映射。但是作用不见得很大,可以考虑下。原创 2023-12-19 01:00:04 · 456 阅读 · 0 评论 -
jieba-fenci 结巴分词原理讲解之数据归一化 segment
这种方法给与原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。原创 2023-12-19 00:59:12 · 881 阅读 · 0 评论 -
java 如何计算两个汉字的相似度?如何获得一个汉字的相似汉字?
有时候我们希望计算两个汉字的相似度,比如文本的 OCR 等场景。用于识别纠正。原创 2023-04-12 17:34:49 · 1253 阅读 · 6 评论 -
和 chatgpt 聊了一会儿分布式锁 redis/zookeeper distributed lock
感觉聊的差不多了,我们让 chatGPT 出一个对比的表格。特点RedisZooKeeper数据结构Redis使用字符串数据类型存储锁信息ZooKeeper使用ZNode节点存储锁信息实现方式Redis使用单节点或者Redis集群实现分布式锁ZooKeeper使用ZooKeeper集群实现分布式锁性能Redis读写速度较快,适用于高并发场景ZooKeeper在写入数据时需要进行同步操作,写入速度相对较慢可靠性Redis的主从复制和Sentinel保证了Redis集群的高可用性。原创 2023-04-07 16:36:53 · 3961 阅读 · 0 评论 -
NLP 开源形近字算法之相似字列表(番外篇)
国内对于文本的相似度计算,开源的工具是比较丰富的。但是对于两个汉字之间的相似度计算,国内基本一片空白。国内的参考的资料少的可怜,国外相关文档也是如此。本项目旨在抛砖引玉,实现一个基本的相似度计算工具,为汉字 NLP 贡献一点绵薄之力。原创 2023-03-28 14:00:57 · 605 阅读 · 1 评论 -
NLP 开源形近字算法补完计划(完结篇)
前言所有的故事都有开始,也终将结束。本文将作为 NLP 汉字相似度的完结篇,为该系列画上一个句号。起-NLP 中文形近字相似度计算思路承-中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力转-当代中国最贵的汉字是什么?不足之处之所以有本篇,是因为上一次的算法实现存在一些不足。巴别塔《圣经》中有关于巴别塔建造,最终人们因为语言问题而停工的故事。创11:6 “看哪!他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事,就没有不成就的了。创11:7 我们下去,原创 2021-11-25 22:05:01 · 1406 阅读 · 0 评论 -
当代中国最贵的汉字是什么?
最贵的汉字“你说,当代中国最贵的汉字是什么?”,有一天同事忽然问我。“【诺】,因为一诺千金”,我脱口而出。“不对。”“【字】,一字千金?”同事摇头。“爱?”“这个是无价的,不算。”“人才。不是说 21 世纪最贵的是人才吗?”“一个字,你这不算。你咋不说家书抵万金呢?”“算了,不猜了。”,我脑海里为数不多的几个字转了一圈,没有一个符合的。我有些疑惑地看着他,表示放弃。“答案是拆。”“拆?”“对。拆,拆迁的拆。”说完,同事笑了笑。笑中带着三分世俗,六分狡黠,还有一分凄凉。“拆,原创 2021-11-24 22:05:18 · 3988 阅读 · 1 评论