数据挖掘
沐枫L
这个作者很懒,什么都没留下…
展开
-
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用4
王总的部门会原定九点钟的部门会,由于王总在路上堵车,到九点半才正式开始。会议像往常一样由王总主持,首先是研发总监张宏宇做工作总结。张宏宇站了起来,用充满自信的语气讲起来:“各位同事,大家好!首先感谢各位同事的Hard Work,我经常Totally impressed b转载 2011-08-19 20:24:45 · 299 阅读 · 0 评论 -
全文检索、数据挖掘、推荐引擎系列1---技术架构
在后web2.0时代,简单的允许用户产生内容,连接用户组成社交网络,满足用户个性化需求,已经变成各个网站的标配,不可能成为网站的特色和竞争优势了。然而,随着用户产生内容的增多,用户与系统交互手段的丰富,用户可供选择的选项的增多,用户迫切需要一种可以处理当前信息爆炸时代的工具,可以转载 2011-08-19 20:33:40 · 464 阅读 · 0 评论 -
全文检索、数据挖掘、推荐引擎系列4---去除停止词添加同义词
Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有必要认真研究一下Lucene对文解析的过程。Lucene对文本的解析对用户的转载 2011-08-19 20:35:27 · 453 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用5
创业交流会吴言的公司在上这边,可是这场创业交流会却在Soho现代城,如果想去参加,需要从北京城的西北到东南去,如果下班肯定赶不及,所以吴言找个机会,早出来了两个小时,冒着盛夏的配热,从地钱13号线然后10号线再一号线,几经辗转终于到传说中的Soho现代城。好在地钱里有空调,没转载 2011-08-19 20:25:53 · 1136 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用7
山寨工场奇遇记吴言这几天感觉自己像一台多线程运行的机器,一边是公司没完没了的系统升级需求,一边是自己社会化电子商务实现,还有就是恶补各种创业知识,吴言渐渐感到力不从心了,但是他依然坚持着。这不,今天刚打开网络,在浏览创业新闻时,就被一条新闻稿给吸引了,新闻稿讲的是北京山寨转载 2011-08-19 20:27:19 · 448 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用9
辞职创业吴言在经过了几天的反复思考,终于下定决心辞职创业了。做出这个决定真的需要很大的勇气,因为自己的年纪做为程序员来说,已经属于很高龄了,如果创业失败几乎没有退路,再找工作将很难,合适的工作几乎是不可能的。但是如果一辈子就这么重复着当下的生活,他又不甘心,非常的不甘心,放弃转载 2011-08-19 20:28:32 · 417 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用10
商业计划书虽然吴言一直觉得系统开发才是硬道理,其他神马都是浮云。但是在创业网站上,各位牛人们一遍遍重复着的商业计划书的重要性,对吴言还是产生了影响。虽然商业计划书融资价值无限接近于零,但是一个商业计划书可以为自己理清创业思路,这点吴言还是认可的。况且,万一真的通过商业计划书融转载 2011-08-19 20:31:18 · 359 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用12
股权激励之惑终于通过程序可以把京成商城所有产品的页面全都通过网络爬虫程序全部下载到本地来了,吴言心满意足坐在了电脑椅的靠背上,这才发现自己已经足足一动不动的在这编了将近五个小时的程序了,好累呀,吴言很有成就感地伸了一个懒腰。“哎呦!”吴言不小心把堆在电脑桌上最上面的一本书转载 2011-08-19 20:32:41 · 416 阅读 · 0 评论 -
和机器学习和计算机视觉相关的数学
1.线性代数 (Linear Algebra):我想国内的大学生都会学过这门课程,但是,未必每一位老师都能贯彻它的精要。这门学科对于Learning是必备的基础,对它的透彻掌握是必不可少的。我在科大一年级的时候就学习了这门课,后来到了香港后,又重新把线性代数读了一遍,所读转载 2011-09-23 06:11:36 · 1234 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用3
通向管理之路吴言今天又起了个大早,来到写字楼的大厅时还不到八点,平时拥挤的电梯间现在还空无一人,吴言过去按下了上楼的按钮。“嗨!老吴,早呀!”吴言回头一看,原来是行政部的程静,是个特别活泼开朗的外向型小姑娘,在研发部里很有人缘。“你也挺早呀!”吴言回了一句。“转载 2011-08-19 20:24:13 · 386 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
吴言的直接上司张宏宇比他小10岁,是一个北大毕业的硕士,头脑相当灵活,办事效率非常高,常常别人还不明白是怎么回事的时侯他就恍然大悟了。他的头衔是研发总监,实际上就是研发部门经理,手下有20几个人,他还有一个漂亮的女朋友,靓照就放在笔记本的桌面上,每次开会时,都让这些程序员们眼馋得转载 2011-08-19 20:23:43 · 545 阅读 · 0 评论 -
全文检索、数据挖掘、推荐引擎系列2---异步服务实现
正向前一篇分析的,在全文检索、数据挖掘、推荐引擎的后台系统中,通常可以提供三种类型的服务:同步服务、异步服务、后台服务。对于同步服务可以采用Web Service、XML Over HTTP或Restful服务,我在项目中就采用了Jason over HTTP,主要考虑Javas转载 2011-08-19 20:34:16 · 353 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用1
序言别笑,我可以以我的名义起誓,这是一本全文检索、数据挖掘、推荐引擎在社会化电子商务中应用的专著。当前这三方面的专著很多,但是大多是讲理论基础和实现细节的,还没有发现把这些技术真正用到实际项目中例子,因此我们还是不很清楚应该在什么地方用,应该怎么用。在这本书里,主人公吴言转载 2011-08-19 20:22:51 · 373 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用6
互联网创业葵花宝典吴言这几天参加了无数创业交流活动,看了无数的创业网站,但是本来很清晰的创业思路,恶补了这些创业秘诀和宝典之后,变得越来越糊涂了。吴言决定请教高人来指点一下,自然他想到了同学小A,小A是他上学睡他下铺的兄弟,真名叫陈永强,因为上学时总是考试都得A,所以才得转载 2011-08-19 20:26:44 · 659 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用8
创业餐厅正在吴言为能有机会和VC面谈这一问题一愁莫展的时候,事情突然有了转机,吴言听人说,中关村这边有家创业餐厅,创业者不仅可以在里面办公,还可以在那里很方便的见到著名投资人,而且那里的投资人都对早期项目感兴趣,并且这个地方刚办几个月,就有好几个在那里长期办公的团队获得了天使转载 2011-08-19 20:28:00 · 394 阅读 · 0 评论 -
最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用11
创业合作伙伴吴言最近常在创业啪网站上活动,开始这个网站吸引吴言的地方是这里有无数创投业大佬,吴言想通过这里接触到他们,但是后来发现想在这里接触投资人,显然是水中捞月镜中摘花,成功的概率与直接买彩票独中5亿差不多。但是创业啪网站上还活跃着很多草根创业者,创业者之间互相交流,给吴转载 2011-08-19 20:31:50 · 381 阅读 · 0 评论 -
全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
基于内容的推荐引擎有两种实现途径,一种是根据条目的元数据(可以将元数据理解为属性),另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式,然后描述基于元数据的内容推荐引擎实现方式。对于基于条目文本描述信息的内容推荐引擎,目前有很多资料可以参考,基转载 2011-08-19 20:34:53 · 689 阅读 · 0 评论 -
全文检索、数据挖掘、推荐引擎系列5---文章术语向量表示法
无论是要进行全文检索,还是对文章进行自动聚类分析,都需要将文章表示为术语向量(Term Vector),在Lucene内部就是通过术语向量来对文章进行索引和搜索的,但是Lucene没有向外提供合适的术语向量计算接口,所以对术语向量计算还必须我们自己来做。术语向量解述众所周转载 2011-08-19 20:35:59 · 464 阅读 · 0 评论 -
Octave:矩阵计算的新宠
实话实说,MatLab是迄今为止矩阵计算最强大的工具(没有之一)。可惜MatLab是商用的,一般个体还真买不起。MatLab的Windows版本比Linux版本要好些,这让我不敢轻易断言Windows一无是处,毕竟其下有MatLab这样强悍的软件。以前在Windows下工作,MatLab一直是我的首选矩阵计算工具,在统计计算工具S-PLUS出现之前,人们快乐地用着MatLab简陋的统计工具箱。后来转载 2012-02-14 12:53:45 · 787 阅读 · 0 评论