- 博客(8)
- 收藏
- 关注
原创 新闻分类
最近手头有一个新闻分类的工作。分类是个古老的话题。我贴出来一些有意思的发现,具体的细节此处略过。首先说一下我用到的特征:标题tfidf正文tfidf单词首次出现的位置,计算公式为log(|D|/first_pos),(我试过|D|/first_pos,不过效果不理想)分类器我采用了线性的SVM,训练测试集是从sina, sohu, qq, 163, ifeng, people,
2012-11-30 21:01:11
681
原创 拼音切分
我之前贴了一个拼音列表,然后给出了一个Trie树的实现。也许能猜出来,对了,我要做一个拼音切词。通常url中的拼音是没有字符分割的比如说guojibaodao(国际报道)。如果我们想用一用url中的这部分信息,我们可以选择做一下切分,然后把它映射成汉字。和上次一样,我贴出来代码。实现还是很一目了然的,就别废话了。这个实现只给出了一种可能的切分结果。如果需要返回所有的情况,需要自己修改一下。运行
2012-11-08 13:05:25
3448
1
原创 Trie树(oversimplified python version)
为了快速地对字符串进行匹配,trie树能够担当此任。以下是用pyhton写的一个简单的例子,凑活能用。#!/usr/bin/env pythonimport sys, pickle, reclass TrieNode(object): def __init__(self): self.value = None self.children = {}
2012-11-07 15:34:57
2166
原创 汉语拼音集合
最近由于工作需要整理了一下常用的汉字拼音集合,贴出来希望对大家有用aaianangaobabaibanbangbaobeibenbengbibianbiaobiebinbingbobucacaicancangcaocecencengchachaichanchang
2012-11-06 13:05:36
3546
原创 Locality-Sensitive Hashing (LSH)
在处理多媒体数据时,我们经常遇到高维数据,动则几十维上百维。如何快速索引和查找这些高维数据呢?LSH是一个不错的选择。LSH基于的想法是比较简单的:如果两个点距离比较近,那么经过投影生成的两个点的距离会以较高的概率比较接近。这里我们设v是查询的点,x是投影向量(从高斯分布中随机采样而来),b为随机向量,w为量化步长,h为哈希的结果,我们有以下公式:h = floor((x . v + b)
2012-08-16 19:48:27
928
原创 MPEG7 Color Structure 特征抽取介绍
之前在开发一款相似图片服务的时候用到了ColorStructure这个特征。当时理解这个特征的时候还有点费劲,现在整理出来希望对要用到它的人能有所帮助。ColorStructure的抽取是在HMMD颜色空间上进行的,该颜色空间如下图所示:在计算颜色结构特征时使用了HUE、DIFF和SUM三个分量,其中HUE代表了色调,即红橙黄绿各种颜色,取值范围0~360,DIFF代表了颜色饱和度
2012-08-08 12:13:16
1234
2
翻译 面向对象技术
发现在翻译的过程中自己能够学到更多东西,陆续贴一贴自己翻译的文章,供大家伙批评指正。 面向对象技术已经成为大多数软件开发的行业标准了。这项技术是从系统分析与系统工程的众多原则演化而来。人们需要一些抽象工具来对复杂软件系统进行分解和建模。这一需求推动了面向对象技术的演化。在对复杂软件系统建模的过程中存在着两股关键而又相反的力量:“抽象化”和“复杂度的最小化”。“抽象化”主要是采用一些
2009-06-29 21:19:00
407
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人