2016年09月_KIDGINBROOK

12月 11月 09月 04月 03月 02月 01月

原创 bzoj1878 HH的项链树状数组

大致题意：给出一个序列num和一系列询问，每个询问是一个区间，要求输出此区间的不同的数的个数。先把题目换一下，假设每个询问左端点固定是1，那么我们只需要用数组c记录一下每一个数字是否是第一次出现，如果第i个数是第一次出现，那么c[i]置为1，否则c[i]置为0，然后对于一个询问[1, x]，我们只需要计算c的前缀和即可。然后回到本题，当左端点变化的时候，c数组出现了问题，此时的"第一次出现

2016-09-19 09:41:51 614

原创 jieba分词源码阅读

jieba是一个开源的中文分词库，这几天看了下源码，就做下记录。下载jieba后，tree得到主要部分的目录树结构如下：├── jieba │ ├── analyse │ │ ├── analyzer.py │ │ ├── idf.txt │ │ ├── __init__.py │ │ ├── textrank.p

2016-09-14 10:56:17 3427 1

原创 PCA的一篇好文章

http://blog.codinglabs.org/articles/pca-tutorial.html

2016-09-08 22:39:38 591

转载 simhash计算文本相似度

转自http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法

2016-09-08 22:31:33 2710 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 bzoj1878 HH的项链 树状数组

原创 jieba分词源码阅读

原创 PCA的一篇好文章

转载 simhash计算文本相似度

空空如也

空空如也

原创 bzoj1878 HH的项链树状数组