自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 明星云图

2013-10-24 14:27:01 550

原创 新闻分类

最近手头有一个新闻分类的工作。分类是个古老的话题。我贴出来一些有意思的发现,具体的细节此处略过。首先说一下我用到的特征:标题tfidf正文tfidf单词首次出现的位置,计算公式为log(|D|/first_pos),(我试过|D|/first_pos,不过效果不理想)分类器我采用了线性的SVM,训练测试集是从sina, sohu, qq, 163, ifeng, people,

2012-11-30 21:01:11 681

原创 拼音切分

我之前贴了一个拼音列表,然后给出了一个Trie树的实现。也许能猜出来,对了,我要做一个拼音切词。通常url中的拼音是没有字符分割的比如说guojibaodao(国际报道)。如果我们想用一用url中的这部分信息,我们可以选择做一下切分,然后把它映射成汉字。和上次一样,我贴出来代码。实现还是很一目了然的,就别废话了。这个实现只给出了一种可能的切分结果。如果需要返回所有的情况,需要自己修改一下。运行

2012-11-08 13:05:25 3448 1

原创 Trie树(oversimplified python version)

为了快速地对字符串进行匹配,trie树能够担当此任。以下是用pyhton写的一个简单的例子,凑活能用。#!/usr/bin/env pythonimport sys, pickle, reclass TrieNode(object): def __init__(self): self.value = None self.children = {}

2012-11-07 15:34:57 2166

原创 汉语拼音集合

最近由于工作需要整理了一下常用的汉字拼音集合,贴出来希望对大家有用aaianangaobabaibanbangbaobeibenbengbibianbiaobiebinbingbobucacaicancangcaocecencengchachaichanchang

2012-11-06 13:05:36 3546

原创 Locality-Sensitive Hashing (LSH)

在处理多媒体数据时,我们经常遇到高维数据,动则几十维上百维。如何快速索引和查找这些高维数据呢?LSH是一个不错的选择。LSH基于的想法是比较简单的:如果两个点距离比较近,那么经过投影生成的两个点的距离会以较高的概率比较接近。这里我们设v是查询的点,x是投影向量(从高斯分布中随机采样而来),b为随机向量,w为量化步长,h为哈希的结果,我们有以下公式:h = floor((x . v + b)

2012-08-16 19:48:27 928

原创 MPEG7 Color Structure 特征抽取介绍

之前在开发一款相似图片服务的时候用到了ColorStructure这个特征。当时理解这个特征的时候还有点费劲,现在整理出来希望对要用到它的人能有所帮助。ColorStructure的抽取是在HMMD颜色空间上进行的,该颜色空间如下图所示:在计算颜色结构特征时使用了HUE、DIFF和SUM三个分量,其中HUE代表了色调,即红橙黄绿各种颜色,取值范围0~360,DIFF代表了颜色饱和度

2012-08-08 12:13:16 1234 2

翻译 面向对象技术

发现在翻译的过程中自己能够学到更多东西,陆续贴一贴自己翻译的文章,供大家伙批评指正。 面向对象技术已经成为大多数软件开发的行业标准了。这项技术是从系统分析与系统工程的众多原则演化而来。人们需要一些抽象工具来对复杂软件系统进行分解和建模。这一需求推动了面向对象技术的演化。在对复杂软件系统建模的过程中存在着两股关键而又相反的力量:“抽象化”和“复杂度的最小化”。“抽象化”主要是采用一些

2009-06-29 21:19:00 407

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除