自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 bzoj1878 HH的项链 树状数组

大致题意:给出一个序列num和一系列询问,每个询问是一个区间,要求输出此区间的不同的数的个数。先把题目换一下,假设每个询问左端点固定是1,那么我们只需要用数组c记录一下每一个数字是否是第一次出现,如果第i个数是第一次出现,那么c[i]置为1,否则c[i]置为0,然后对于一个询问[1, x],我们只需要计算c的前缀和即可。然后回到本题,当左端点变化的时候,c数组出现了问题,此时的"第一次出现

2016-09-19 09:41:51 614

原创 jieba分词源码阅读

jieba是一个开源的中文分词库,这几天看了下源码,就做下记录。下载jieba后,tree得到主要部分的目录树结构如下:├── jieba │   ├── analyse │   │   ├── analyzer.py │   │   ├── idf.txt │   │   ├── __init__.py │   │   ├── textrank.p

2016-09-14 10:56:17 3426 1

原创 PCA的一篇好文章

http://blog.codinglabs.org/articles/pca-tutorial.html

2016-09-08 22:39:38 591

转载 simhash计算文本相似度

转自http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法

2016-09-08 22:31:33 2710 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除