自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用27

投资投资做出考博决定之后,吴言就需要开始着手准备博士生入学考试了,清华的博士生入学考试主要考两门,外语和一门专业课,对于吴言选择的专业,专业课是数据结构,教材用的是吴言在上学就翻烂的严蔚敏、吴传民的数据结构用C语言描述。现在离3月份入学考试还有六个月的时间,准备时间相对还算充

2011-10-09 13:59:34 729

转载 yum和apt-get用法及区别

一般来说著名的linux系统基本上分两大类: 1.RedHat系列:Redhat、Centos、Fedora等 2.Debian系列:Debian、Ubuntu等 RedHat 系列 1 常见的安装包格式 rpm包,安装rpm包的命令是“rpm

2011-09-30 10:46:37 484

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用26

清华帮吴言在每天的第一件事都是先上到天使街转一圉,因为天使街是吴言的一个朋友Thomas创建的,吴言想给Thomas的网站增加点人气。最近这个网站各方面逐渐完善了起来,无论从内容方面,还是从版面设计方面,都有不小的进步,吴言很替Thomas感到高兴。吴言把自己当前的情况给Th

2011-09-08 22:55:05 872

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用25

Groupon前传吴言的基于内容的推荐引擎基本完成了,当浏览一个产品时,产品描述信息和规格中与当前产品足够接近的产品可以列在页面下部的“喜欢本产品的用户还喜欢......”,对于推荐结果质量,虽然没有非常好的度量方法,但是通过产品的描述信息和规格说明,还是可以找到被推荐的理由

2011-09-08 22:53:57 744

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用24

15年同学会同学聚会安排在了周六的下午,地点就在北航东南门口的体育场附近,然后是去旁边的沸腾渔乡,最后是去K歌。本来组织者还希望利用周未两天时间去京效一处景点,大家在山水之间,好好叙叙旧,但是大家的日程安排都很紧,只好改为半天时间了。吴言来的还没较早,刚进东南门,就看到班

2011-09-08 22:52:32 549

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用23

成功的捷径文本的术语向量生成,术语向量距离计算,术语向量的相似度计算......,吴言这些天一直忙于这些功能的实现,终于吴言可以根据产品的描述信息计算出产品的相似度,也可以根据用户的描述信息、博客、评论计算用户的相似度,以这些为基础,吴言就可以做产品推荐了,例如用户在浏览某个

2011-09-08 22:51:26 379

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用22

主动出击因为现在系统已经上线,并且无论在搜索引擎排名还是Alexa排名上都有所进展,吴言准备再次启动寻找投资的道路。但是怎样才能找到VC,吴言仍然毫无头绪,没办法只好还从Google搜索开始。通过搜索创业、天使投资、VC这些关键词,搜出的结果五花八门,很难从中发现有价值的

2011-09-08 22:49:53 1996

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用21

员工离职之痛吴言今年是订的初四的回程火车票,因此初四早晨就得动身,走到十几里外的汽车站做车。从初三下午开始,父母就在给吴言收拾行李,虽然吴言一再说路上带着不方便,但是父母还是顽固地给他收拾了整整一袋子东西,吴言每次回京,拎着父母都舍不得吃的东西,都深深地体会到了亲情的沉重。

2011-09-08 22:48:41 602

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用20

春节虽然离春节还有一个半月,但是过年的气氛已经开始变得越来越浓了,人们已经开始谈论着买回家的火车票,行程安排等等信息,周围都迷漫着越来越浓的年的味道。每年到这个时候,吴言都会感到未名烦燥。又一年过去,又是一事无成,今年尤其如此,连往年还算说得过去的工作都没有了,而且自己的

2011-09-08 22:47:13 318

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用19

英语复习课终于完成了商品相似度计算程序,吴言伸了个懒腰,走到窗前准备放松一下。吴言站在窗前向窗外望着,今天天阴得特别沉,才三点多钟,屋里就必须要开灯了。空气中迷漫着浓浓的水汽,仿佛可以拧出水来似的,应该是快要下雪了。转眼已经进入十二月份了,离自己离职创业已经有将近四个月的

2011-09-08 22:45:55 1767

转载 全文检索、数据挖掘、推荐引擎系列7---条目相似度算法

在实际的项目中,有许多场合需要进行条目相似度计算,比如在电商系统中,经常有喜欢这个商品的用户还喜欢,通常计算商品的相似度是实现这种功能的方法之一,这可以视为一种基于内容的推荐系统的应用。同时,计算相似度不仅可以用于推荐商品,利用同样的算法,我们还可以计算出用户的相似度,可以向用户

2011-09-08 22:43:41 630

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用17

工作中的细节吴言的新公司好像一切都进展得很顺利,经过一周左右的磨合时间,大家彼此都变得熟悉起来,每个人也基本进入了工作状态。吴言对此非常满意,第一次转型做管理的自己,在最关键的第一周并没有出现大的失误,这个小团队已经开始工作了。但是吴言还是注意到了一些问题,虽然这些问题很

2011-09-08 22:39:31 399

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用16

第一次公司全会今天是吴言约定的三个新员工报到的第一天,吴言提前就把办公室的卫生又好好搞了一遍,同时为他们分配好了座位,赵文涛和李卫东同是做开发的,坐在主卧靠窗的两个座位,曾玉洁将会做产品录入以及部分软件质量保证的工作,坐在客厅里,自己也先不坐在自己的办公室,而是坐在客厅里,这

2011-09-08 22:36:06 310

转载 全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法

对一系列文章进行自动聚类可以做为基于内容的推荐引擎的基础,如果要实现文本的自动聚类,首先按照本系列5中所介绍的,对文章进行分词,然后计算得出文章的术语向量表示,即求文章中每个不同的单词以其所对应的TF*IDF,具体计算方法如5中所示。目前文本自动聚类算法中,用得最多是KMean算

2011-09-08 22:33:20 645

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用15

第一批员工吴言把自己租的房子换成了一个临街的两室两厅的单元房,里边只有简单的装修,并且没有家居和家电,虽然每月3500的租金有些贵,但是却可以同时解决吴言住宿和办公问题,吴言还是觉得挺值的。吴言首先买了个简易的地毯,铺在了原本是地砖的地上,因为这样可以防止电脑椅来回移动时产生

2011-09-08 22:28:04 403

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用14

半部论语创企业吴言自从创业到现在也没有多长时间,但是在这些天所经历的起起落落、悲悲喜喜却比过去的总和还要多,有时侯真的感觉心力憔悴,现在他深深的意识到应该加强自身的修养了。吴言以前有一个习惯,就是每次遇到职业瓶颈时,总喜欢买一本励志学或成功学的书来看,所以这类书是除技术类书籍

2011-09-08 22:26:34 400

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用13

蝴蝶结效应吴言昨天晚上熬得很晚,早上是被自己的手机来电惊醒的。谁这么早就来电话,真讨厌!吴言心里嘟囔着,不情愿的从床上爬起来,下意识的看了一下表,原来已经十点多了,已经不算早了。吴言拿起手机,无精打彩的说道:“喂?”“老吴,我是杨子健!现在说话方便吗?”原来是杨子健,

2011-08-23 11:50:42 1002

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用12

股权激励之惑终于通过程序可以把京成商城所有产品的页面全都通过网络爬虫程序全部下载到本地来了,吴言心满意足坐在了电脑椅的靠背上,这才发现自己已经足足一动不动的在这编了将近五个小时的程序了,好累呀,吴言很有成就感地伸了一个懒腰。“哎呦!”吴言不小心把堆在电脑桌上最上面的一本书

2011-08-23 11:50:04 343

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用11

创业合作伙伴吴言最近常在创业啪网站上活动,开始这个网站吸引吴言的地方是这里有无数创投业大佬,吴言想通过这里接触到他们,但是后来发现想在这里接触投资人,显然是水中捞月镜中摘花,成功的概率与直接买彩票独中5亿差不多。但是创业啪网站上还活跃着很多草根创业者,创业者之间互相交流,给吴

2011-08-23 11:49:18 494

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用10

商业计划书虽然吴言一直觉得系统开发才是硬道理,其他神马都是浮云。但是在创业网站上,各位牛人们一遍遍重复着的商业计划书的重要性,对吴言还是产生了影响。虽然商业计划书融资价值无限接近于零,但是一个商业计划书可以为自己理清创业思路,这点吴言还是认可的。况且,万一真的通过商业计划书融

2011-08-23 11:48:36 419

转载 全文检索、数据挖掘、推荐引擎系列4---去除停止词添加同义词

Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有必要认真研究一下Lucene对文解析的过程。Lucene对文本的解析对用户的

2011-08-23 11:47:52 550

转载 十七道海量数据处理面试题与Bit-map详解

七道海量数据处理面试题与Bit-map详解作者:小桥流水,redfox66,July。文章性质:整理。前言    本博客内曾经整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了重复了之前的10道面试题之后,

2011-08-16 11:55:42 353

转载 海量数据处理:十道面试题与十个海量数据处理方法总结

第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。      首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件

2011-08-16 11:54:37 352

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用9

辞职创业吴言在经过了几天的反复思考,终于下定决心辞职创业了。做出这个决定真的需要很大的勇气,因为自己的年纪做为程序员来说,已经属于很高龄了,如果创业失败几乎没有退路,再找工作将很难,合适的工作几乎是不可能的。但是如果一辈子就这么重复着当下的生活,他又不甘心,非常的不甘心,放弃

2011-08-16 11:28:17 385

转载 几种常见的基于Lucene的开源搜索解决方案对比

一  直接使用 Lucene  ( http://lucene.apache.org )说明:Lucene 是一个 JAVA 搜索类库,它本身并不是一个完整的解决方案,需要额外的开发工作优点:成熟的解决方案,有很多的成功案例。apache 顶级项目,正在持续快速的进步。庞

2011-08-15 11:39:37 367

转载 当前几个主要的Lucene中文分词器的比较

1. 基本介绍:paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了

2011-08-15 11:31:39 463

转载 基于lucene实现自己的推荐引擎

原文地址:转:基于lucene实现自己的推荐引擎作者:zdhg原文来自http://blog.fulin.org/2010/10/recommendation_system_based_lucene.html采用基于数据挖掘的算法来实现推荐引擎是各大电子商

2011-08-15 11:24:03 629

转载 全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词

基于内容的推荐引擎有两种实现途径,一种是根据条目的元数据(可以将元数据理解为属性),另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式,然后描述基于元数据的内容推荐引擎实现方式。对于基于条目文本描述信息的内容推荐引擎,目前有很多资料可以参考,基

2011-08-15 11:05:09 352

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用8

创业餐厅正在吴言为能有机会和VC面谈这一问题一愁莫展的时候,事情突然有了转机,吴言听人说,中关村这边有家创业餐厅,创业者不仅可以在里面办公,还可以在那里很方便的见到著名投资人,而且那里的投资人都对早期项目感兴趣,并且这个地方刚办几个月,就有好几个在那里长期办公的团队获得了天使

2011-08-12 14:18:46 295

转载 全文检索、数据挖掘、推荐引擎系列2---异步服务实现

正向前一篇分析的,在全文检索、数据挖掘、推荐引擎的后台系统中,通常可以提供三种类型的服务:同步服务、异步服务、后台服务。对于同步服务可以采用Web Service、XML Over HTTP或Restful服务,我在项目中就采用了Jason over HTTP,主要考虑Javas

2011-08-12 10:24:15 225

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用7

山寨工场奇遇记吴言这几天感觉自己像一台多线程运行的机器,一边是公司没完没了的系统升级需求,一边是自己社会化电子商务实现,还有就是恶补各种创业知识,吴言渐渐感到力不从心了,但是他依然坚持着。这不,今天刚打开网络,在浏览创业新闻时,就被一条新闻稿给吸引了,新闻稿讲的是北京山寨

2011-08-11 10:35:26 358

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用6

互联网创业葵花宝典吴言这几天参加了无数创业交流活动,看了无数的创业网站,但是本来很清晰的创业思路,恶补了这些创业秘诀和宝典之后,变得越来越糊涂了。吴言决定请教高人来指点一下,自然他想到了同学小A,小A是他上学睡他下铺的兄弟,真名叫陈永强,因为上学时总是考试都得A,所以才得

2011-08-11 10:34:38 463

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用5

创业交流会吴言的公司在上这边,可是这场创业交流会却在Soho现代城,如果想去参加,需要从北京城的西北到东南去,如果下班肯定赶不及,所以吴言找个机会,早出来了两个小时,冒着盛夏的配热,从地钱13号线然后10号线再一号线,几经辗转终于到传说中的Soho现代城。好在地钱里有空调,没

2011-08-11 10:33:58 450

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用4

王总的部门会原定九点钟的部门会,由于王总在路上堵车,到九点半才正式开始。会议像往常一样由王总主持,首先是研发总监张宏宇做工作总结。张宏宇站了起来,用充满自信的语气讲起来:“各位同事,大家好!首先感谢各位同事的Hard Work,我经常Totally impressed b

2011-08-11 10:33:22 232

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用3

通向管理之路吴言今天又起了个大早,来到写字楼的大厅时还不到八点,平时拥挤的电梯间现在还空无一人,吴言过去按下了上楼的按钮。“嗨!老吴,早呀!”吴言回头一看,原来是行政部的程静,是个特别活泼开朗的外向型小姑娘,在研发部里很有人缘。“你也挺早呀!”吴言回了一句。“

2011-08-11 10:32:31 272

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2

吴言的直接上司张宏宇比他小10岁,是一个北大毕业的硕士,头脑相当灵活,办事效率非常高,常常别人还不明白是怎么回事的时侯他就恍然大悟了。他的头衔是研发总监,实际上就是研发部门经理,手下有20几个人,他还有一个漂亮的女朋友,靓照就放在笔记本的桌面上,每次开会时,都让这些程序员们眼馋得

2011-08-11 10:31:46 409

转载 最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用1

序言别笑,我可以以我的名义起誓,这是一本全文检索、数据挖掘、推荐引擎在社会化电子商务中应用的专著。当前这三方面的专著很多,但是大多是讲理论基础和实现细节的,还没有发现把这些技术真正用到实际项目中例子,因此我们还是不很清楚应该在什么地方用,应该怎么用。在这本书里,主人公吴言

2011-08-10 17:39:23 424

转载 全文检索、数据挖掘、推荐引擎技术架构

在后web2.0时代,简单的允许用户产生内容,连接用户组成社交网络,满足用户个性化需求,已经变成各个网站的标配,不可能成为网站的特色和竞争优势了。然而,随着用户产生内容的增多,用户与系统交互手段的丰富,用户可供选择的选项的增多,用户迫切需要一种可以处理当前信息爆炸时代的工具,可以

2011-08-10 16:55:31 777

转载 分布式编程模式MapReduce应用

Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节

2011-08-09 15:30:31 1719

转载 Cassandra、MongoDB、CouchDB、Redis、Riak、HBase比较

本文有标题党之嫌。在NoSQL如日中天的今天,各种NoSQL产品可谓百花齐放,但每一个产品都有自己的特点,有长处也有不适合的场景。本文对Cassandra, Mongodb, CouchDB, Redis, Riak 以及 HBase 进行了多方面的特点分析,希望看完此文的您能够

2011-08-02 14:33:51 647

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除