自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法

对一系列文章进行自动聚类可以做为基于内容的推荐引擎的基础,如果要实现文本的自动聚类,首先按照本系列5中所介绍的,对文章进行分词,然后计算得出文章的术语向量表示,即求文章中每个不同的单词以其所对应的TF*IDF,具体计算方法如5中所示。目前文本自动聚类算法中,用得最多是KMean算法,本文中就介绍KMean算法的应用。当然,KMean算法可以通过调用Mahout或WEKA这两个开源的机器学...

2011-08-24 16:28:00 191

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用14

半部论语创企业吴言自从创业到现在也没有多长时间,但是在这些天所经历的起起落落、悲悲喜喜却比过去的总和还要多,有时侯真的感觉心力憔悴,现在他深深的意识到应该加强自身的修养了。吴言以前有一个习惯,就是每次遇到职业瓶颈时,总喜欢买一本励志学或成功学的书来看,所以这类书是除技术类书籍外数量最多的书了。吴言一本一本的翻着这些书,比如这本书,上面写着成功很简单,只需要五步:目标明确、详细计划...

2011-08-23 11:56:00 198

转载 全文检索、数据挖掘、推荐引擎系列5---文章术语向量表示法

无论是要进行全文检索,还是对文章进行自动聚类分析,都需要将文章表示为术语向量(Term Vector),在Lucene内部就是通过术语向量来对文章进行索引和搜索的,但是Lucene没有向外提供合适的术语向量计算接口,所以对术语向量计算还必须我们自己来做。术语向量解述众所周知,一篇文章由一个个的单词组成,我们在进行文本处理时,首先进行中文分词,包括去除“的、地、得”等常用停止词,对...

2011-08-19 16:39:00 192

转载 全文检索、数据挖掘、推荐引擎系列4---去除停止词添加同义词

Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有必要认真研究一下Lucene对文解析的过程。Lucene对文本的解析对用户的接口是Analyzer的某个子类,Lucene内置了几个子类,但是对于英文来说StandardAnalyzer...

2011-08-16 16:37:00 163

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用9

辞职创业吴言在经过了几天的反复思考,终于下定决心辞职创业了。做出这个决定真的需要很大的勇气,因为自己的年纪做为程序员来说,已经属于很高龄了,如果创业失败几乎没有退路,再找工作将很难,合适的工作几乎是不可能的。但是如果一辈子就这么重复着当下的生活,他又不甘心,非常的不甘心,放弃一切也要尝试一把的诱惑使他难以抗拒。整整一个上午,吴言都在早已写好的辞职邮件界面上,他需要鼓足勇气才能按下...

2011-08-16 08:37:00 189

转载 全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词

基于内容的推荐引擎有两种实现途径,一种是根据条目的元数据(可以将元数据理解为属性),另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式,然后描述基于元数据的内容推荐引擎实现方式。对于基于条目文本描述信息的内容推荐引擎,目前有很多资料可以参考,基本步聚是先对文本内容进行分词,包括提取出单词、去掉常用词如的地得、加入同意词、对英语还有去掉复数形式和过去分词...

2011-08-12 16:34:00 97

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用8

创业餐厅正在吴言为能有机会和VC面谈这一问题一愁莫展的时候,事情突然有了转机,吴言听人说,中关村这边有家创业餐厅,创业者不仅可以在里面办公,还可以在那里很方便的见到著名投资人,而且那里的投资人都对早期项目感兴趣,并且这个地方刚办几个月,就有好几个在那里长期办公的团队获得了天使投资。竟然还有这样的机构,对自己这样的创业者来说,简直是再合适不过了,所以吴言决定要去那里试一试。吴言...

2011-08-12 11:46:00 154

转载 全文检索、数据挖掘、推荐引擎系列2---异步服务实现

正向前一篇分析的,在全文检索、数据挖掘、推荐引擎的后台系统中,通常可以提供三种类型的服务:同步服务、异步服务、后台服务。对于同步服务可以采用Web Service、XML Over HTTP或Restful服务,我在项目中就采用了Jason over HTTP,主要考虑Javascript解析Json效率较高,但是还要看各人喜好。对于异步服务在实现上,如果选用Java做为编程语言,基本就...

2011-08-11 16:08:00 110

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用7

山寨工场奇遇记吴言这几天感觉自己像一台多线程运行的机器,一边是公司没完没了的系统升级需求,一边是自己社会化电子商务实现,还有就是恶补各种创业知识,吴言渐渐感到力不从心了,但是他依然坚持着。这不,今天刚打开网络,在浏览创业新闻时,就被一条新闻稿给吸引了,新闻稿讲的是北京山寨工场,创始人钟清时是全球五百强顶级企业全球高级副总裁,在两年前,在病中,在不影响企业日常管理工作的情况下,利用...

2011-08-11 08:44:00 180

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用6

互联网创业葵花宝典吴言这几天参加了无数创业交流活动,看了无数的创业网站,但是本来很清晰的创业思路,恶补了这些创业秘诀和宝典之后,变得越来越糊涂了。吴言决定请教高人来指点一下,自然他想到了同学小A,小A是他上学睡他下铺的兄弟,真名叫陈永强,因为上学时总是考试都得A,所以才得到小A的称号。小A毕业后一直做销售工作,开始时小A经常蹭吴言的饭局和房子住,不过小A在毕业三五年之后,突然发迹...

2011-08-10 08:18:00 176

转载 全文检索、数据挖掘、推荐引擎系列1---技术架构

在后web2.0时代,简单的允许用户产生内容,连接用户组成社交网络,满足用户个性化需求,已经变成各个网站的标配,不可能成为网站的特色和竞争优势了。然而,随着用户产生内容的增多,用户与系统交互手段的丰富,用户可供选择的选项的增多,用户迫切需要一种可以处理当前信息爆炸时代的工具,可以迅速找到自己想要的内容,更加容易的做出正确的决策,因此在后web2.0时代,全文检索、数据挖掘、推荐引擎的应用...

2011-08-09 17:46:00 308

转载 Android平台3D引擎研究4

OpenGL ES纹理处理使用OpenGL ES的纹理可以将图片贴到3D模型上,从而生成逼真的3D场景。纹理是以图片文件形式存在的,图片被归一化为(0.0, 0.0)到(1.0, 1.0)的矩形区域,通常一个3D物体具有一个纹理文件即可,每处三角片所使用的纹理可以通过uv坐标来指定。通过三角片每个顶点在归一化后图片中的坐标,可以从纹理图片中取出相应的三角形区域,OpenGL ES将该...

2011-08-09 07:24:00 103

转载 Android平台3D引擎研究3

OpenGL ES颜色处理在OpenGL ES编程中非常重要的概念就是颜色和纹理,通过这些元素可以创造出各种漂亮的场景。下面就来看一下在min3d中怎样显示颜色和纹理。显示颜色相对来说比较简单,一种情况是整个面都具有同样的颜色,这时该面上所有顶点的颜色值相同,如果同一面上各个顶点的颜色不同,将实现颜色渐变的效果。代码如下:obj = new MgnavObject(false...

2011-08-09 07:21:00 93

转载 Android平台3D引擎研究2

在上一篇文章中,我们看到可以通过很少的代码,就可以在屏幕上显示出一个立方体,相当于min3d中的Hello World程序。但是,对于OpenGL ES编程来说,我们通常需要处理的数据是三角片,可惜使用min3d这样的引擎把这些细节给隐藏了。在这里我们自己手动生成一个放在原点上的立方体,给出顶点、三角片、法向量,然后由min3d引擎来显示,这样可以更深入理解OpenGL ES的工作原理。...

2011-08-09 07:20:00 96

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除