学习总结
agul_
中科院计算技术研究所在读硕士,主要研究方向为知识图谱
展开
-
正则表达式 学习笔记
1.匹配可选字符——使用? 匹配color或colour:colou?r2.?匹配零次或一次,*匹配零次或多次,+匹配一次或多次3.{n}匹配n次,{n,m}匹配n到m次,{n,}匹配n到无限次4.句点(.)元字符匹配任何字母字符(无论大小写),也可以匹配数字、空白字符(如空格符)以及非英语语言中的很多文字字符。多数情况下,它都会匹配除了换行符之外的任何字符。然而也可以通过修改.原创 2012-08-05 13:05:02 · 1050 阅读 · 0 评论 -
Simhash的适用情况及其局限
需求是这样的:给出一个文档集合,以及一个领域概念集合,要求根据这些领域概念计算文档的相似性。首先想到的是利用余弦相似性计算。起初得到的集合有大概几万篇文档,如果对每对文档进行余弦相似度计算,会导致时间复杂度较高,于是发现了Simhash方法。由于已经给出了用于计算哈希值的关键词(即这些领域概念),就省去了对文章进行分词的步骤。每篇文档都用其领域概念列表计算出文档的哈希值,并使用这些原创 2015-09-11 17:56:46 · 3497 阅读 · 1 评论