- 博客(4)
- 收藏
- 关注
原创 bzoj1878 HH的项链 树状数组
大致题意:给出一个序列num和一系列询问,每个询问是一个区间,要求输出此区间的不同的数的个数。先把题目换一下,假设每个询问左端点固定是1,那么我们只需要用数组c记录一下每一个数字是否是第一次出现,如果第i个数是第一次出现,那么c[i]置为1,否则c[i]置为0,然后对于一个询问[1, x],我们只需要计算c的前缀和即可。然后回到本题,当左端点变化的时候,c数组出现了问题,此时的"第一次出现
2016-09-19 09:41:51 614
原创 jieba分词源码阅读
jieba是一个开源的中文分词库,这几天看了下源码,就做下记录。下载jieba后,tree得到主要部分的目录树结构如下:├── jieba │ ├── analyse │ │ ├── analyzer.py │ │ ├── idf.txt │ │ ├── __init__.py │ │ ├── textrank.p
2016-09-14 10:56:17 3427 1
转载 simhash计算文本相似度
转自http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法
2016-09-08 22:31:33 2710 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人