杂文
poson
搞过图像处理感觉刚入门做搜索引擎只玩过单机版广告技术做了QueryRewrite目前做推荐算法感觉推荐算法和关键词推荐本质上是一样的爱数学爱计算机爱生活
展开
-
代码规范
代码规范:变量和函数命名,参考IDE和开源代码 (github)函数必须在一个屏幕以内。决不能有重复的代码段。原创 2016-03-29 16:46:57 · 1861 阅读 · 0 评论 -
马尔科夫 与 推荐系统
能否把推荐系统看成一个马尔科夫过程。把用户购买的东西当成一个马儿科夫链。链中的每个结点就当成一个spu(或者类目)。通过每个结点的发散概率。这样当用户买了商品的时候,就可以根据他买的spu推荐他将要买的东西。原创 2009-02-09 12:50:00 · 1861 阅读 · 5 评论 -
相关实体或者类目的分析
1、根据关联规则推荐。如果A,B都购买了x,并且A购买了y,那么b也可能购买y。 通过关联规则可以知道这些商品x和y可能是相关的。 根据关联规则,可以知道那些类目是相关的。2、是否可以通过实体关系的挖掘,知道哪些实体是相关的。原创 2008-11-25 10:34:00 · 722 阅读 · 0 评论 -
crontab 定时任务注意几点
crontab没有没有记录任务的环境变量,需要任务自己提供环境变量。运行shell的需要提供全路径。如/home/xxx/run.sh 。shell脚本不能运行python的问题?需要全路径。 如/usr/bin/python xxx.py但是shell中的awk脚本不需要全路径。原创 2008-11-20 15:43:00 · 848 阅读 · 0 评论 -
最近阅读 C++代码的感想
一个优秀的C++程序员通过运用派生、虚函数、重载、序列化等一系列技巧把代码写得非常抽象。这样的代码非常精巧,对事物的描述也非常到位。通过一定抽象,代码也可以非常简洁。但是如果没有足够的文档和介绍,对接手维护这个系统的人无疑是一个噩梦。 最近我看的一个系统代码就是设计比较好,可惜阅读起来比较难懂。特别是其中重载符号运算符,并且与我们通常对,加号等符号理解不一致的时候原创 2008-11-10 00:13:00 · 957 阅读 · 0 评论 -
Machine Learning (Stanford)
http://www.youtube.com/watch?v=UzxYlbK2c7EVery good!We are in a greate time. We dont need take a site in Stanford unversity.But we can learn their class as well,even more clearly.原创 2008-10-31 19:47:00 · 654 阅读 · 0 评论 -
第一次写python代码
python的代码格式很规整,是大家公认的特点。写出的程序阅读起来确实比较方便。 读写文件的操作都非常方便。可以集中精力在计算上面。不过没有找一个函数手册,编写程序还是不方便。问题是缩进格式,在window下面的tab缩进,拿到linux下面老是出问题。pythonwin的提示还是很不错的。原创 2008-10-31 13:12:00 · 718 阅读 · 0 评论 -
今天安装了电视盒
安装了一个电视盒,可以直接用液晶显示器看电视了。不过效果不是很好,感觉这个电视盒做工很粗糙。通过电视盒转接显示器来使用电脑的时候,液晶明显有一些模糊。效果不是非常好。原创 2008-10-27 23:00:00 · 645 阅读 · 0 评论 -
对敏捷开发每天晨会的感想
1、压力比较大。每天早上总是要说点什么。不能说昨天什么也没有做吧 2、不知道天天开晨会,leader会不会有急功近利的倾向。 3、督促自己合理利用自己的时间 4、可以知道同事在做什么,到什么样的进度了。 5、早上不会迟到,很快能够进入工作状态。原创 2008-10-26 23:01:00 · 3436 阅读 · 2 评论 -
层次聚类的时间控制
聚类的关键在于根据数据特征导出距离函数。找到距离函数,聚类就成功了一半了。距离函数包括两个样本直接的欧式距离,余弦相似度,person相似度等等。根据不同的情景,选择不同距离函数。距离函数可以另外增加一些类别信息,如控制每个类别下样本的个数。(1)控制聚类的层数非常重要。控制层数,可以控制,最终的聚类结果,关键是减少时间。(2)当有几万个样本,要聚成几千个类的时候。减少每个样本和其他样本的比原创 2009-02-17 14:40:00 · 972 阅读 · 0 评论 -
层次聚类与分类规则
层次聚类,通过设计相似性函数(或者聚类函数),可以非常方便的实现无监督的聚类过程。但是相似性阈值太高,得到类目太多,达不到聚类的目的;阈值太低,类目少,但是准确性就会降低。在这个时候,使用一些分类规则,当相似度很高的时候,当满足一些规则,就降低其相似度,这样可以得到合适的类目个数,同时得到比较满意的准确率。原创 2009-03-05 14:30:00 · 1589 阅读 · 1 评论 -
我所知道的养生
养生者,修养身心也。养生之道,也就是修养身心的方法。庄子所谓养生,其主要思想即顺应自然、不奢求、不强求,如水一样变化自身,适应各种环境。庄子养生的思想,表现在哲学上就是无为。无为的思想,和当今功利主义的思想,无疑是背道而驰的。庄子在处世哲学上,显得明哲保身。不做对自己的生命有危害的事情,甚至有潜在危害的事情也是避而远之。以上是养生的主要思想,用战争的术语来说,就是战略思想。相应的战原创 2009-05-03 23:26:00 · 756 阅读 · 0 评论 -
日本旅游[整理]
http://www.zhihu.com/question/19563670/answer/30454734 手机装一个中日翻译软件比较有用,简单交流可以用(特别买东西的时候)。如果要代购记得从淘宝收集图片,购买的时候给导购。在飞机上可以要空姐拿日本出关手续,先填好可以节约时间。地铁买一日券比较划算,注意东京的地铁有几个公司,东京地铁,都营,jr等,计划好路线可以省钱,不一定需转载 2015-02-26 16:00:50 · 7591 阅读 · 0 评论 -
2014年
上半年开始搞实时推荐、逻辑回归的算法应用,目的是整合系统、算法的资源做了很多的工作,对于系统和算法的很多事情有了更多的想法。但是对系统的架构做得很不满意,很多细致的设计不够,如日志的格式、项目上线的节奏。对项目管理不满意的是:对团队的开发节奏的把握,对目标的设定和执行,团队规范的建立都不满意,做的也不够。在下半年的工作中,做了4个月项目经理的工作,对工作上下游的协调还是有一些心得。但是技术短板原创 2015-01-18 22:34:37 · 1106 阅读 · 0 评论 -
支持向量机的原理
很早就买了《数据挖掘中的新方法--支持向量机》,一直没有认真看。最近复习了向量,空间,矩阵,然后从头开始看发现逐渐看出一些门道了。 支持向量机,开始给人的感觉很高级,其实也是一类求最大值的问题。只是样本都是一些向量,划分的时候也是用直线去划分。 这是一类求最大化,最小化求值。 一切都是从简单的二维点的划分开始的。了解二维点的划分,对支持向量机就开始入门了。原创 2008-10-15 23:03:00 · 7554 阅读 · 1 评论 -
端午节已过两天
端午节在家只有两件事情:带小孩、看书。小孩有一半时间是岳父母带。我换尿布、洗澡、逗孩子更容易一点。小孩一岁,爱动、不会讲话,带起来很累。今天晚上我看了一下手机,一眨眼功夫,他就爬到矮组合柜子上面,吓了我一跳。小孩子脚力气不够,站一会儿就会坐下来,因此很担心他不小心摔下来。为了防止他碰撞,我把几包尿布摆在床边,一旦他摔倒可以做一下缓冲。小孩拉肚子和感冒。网络搜索了一下,发现苹果煮水喝可以治拉原创 2013-06-11 21:49:51 · 1376 阅读 · 0 评论 -
简单抽样算法介绍
我们要分析数据,当面对大量数据的时候,不可能每个数据都看一遍,就需要用到一些采样方法。通过采样得到的数据了解数据的规律和特征。 1、平均随机抽样 有10000个数据,任意随机抽取100条。2、分类抽样 有10000个数据,有10个类目,每类1000条,可以考虑每个种类抽取50条。 3、分类、按照百分比抽样 如果有10000个数据。假如是身原创 2009-11-13 13:23:00 · 3160 阅读 · 0 评论 -
跳槽的成本
最近很多人换工作。 仔细想想,换工作并不一定是是划算的事情。特别是要到另外一个城市工作的话。不过,当你对一个工作感到厌恶的时候,可能不会考虑太多的东西,只想赶紧换一个环境。这种情况另当别论。 到新的工作岗位,要学习一些新的基本技能。 需要花时间融入新的团队。 了解自己的同事和上司的风格。 熟悉自己的工作,做好本职工作。 要学习新的知识,做出超出期望的成果。 一般换一个新的工作,就需要租新的房间。也原创 2009-11-04 23:15:00 · 686 阅读 · 0 评论 -
设计文档的部分内容
系统边界接口架构计算流程/数据流部署/依赖1功能2系统架构数据 类图 3流程训练流程预测流程数据流维护部署图。需要哪些数据,哪些数据库等等信息。原创 2009-05-07 21:11:00 · 580 阅读 · 0 评论 -
今天看了you tu be 上面的舞蹈
在youtube上面观看了一些dance的片段,觉得非常有创意,很有节奏感。 关键是跳的人和看的人都非常开心。下面的人不断的欢呼。在这种创新环境的不断刺激之下,他们的思维一定会非常开阔吧,呵呵。 http://www.youtube.com/watch?v=dMH0bHeiRNg原创 2008-10-12 19:10:00 · 1719 阅读 · 0 评论 -
爬上20楼,锻炼身体!
都说身体是革命的本钱,一定要注意身体啊。特别是程序员,上班一动不动的写程序,晚上还要经常加班,不锻炼身体的话,健康肯定会成问题。 最近公司流行玩桌上足球,看见一位同事,没有玩一会儿,就汗流浃背的,看起来身体比较虚弱啊。 我没有去参加健身俱乐部之类。晚上有个群每周去骑车,但是强度比较大,感觉起不到锻炼的效果。锻炼的运动量应该适当才好。最近发现,好几原创 2008-10-26 22:46:00 · 3174 阅读 · 0 评论 -
怎么保持数据的独立性和全局性?
如果一个系统有n个模块,每个模块都想去访问一块数据。我们应该怎么设计呢? 首先这块数据应该是独立的,并且是全局的,可以让每个模块很容易的访问。我们把这个数据独立出来,做成一个单独的class,并且使用单例模式保证系统中只有一个实例。 由于在n个模块中都要对这个数据访问。这几个模块很可能存在不同的线程中,要访问这个数据就可能遇到同步的问题。这样为了解决同步问题,我们添加了一个原创 2008-06-11 09:39:00 · 2344 阅读 · 0 评论 -
使用有道搜索搜索自己的ID
昨天没有事情,用网易的“有道”搜索了一下自己的ID,结果发现大量自己以前在网络上的记录。这说明网易的索引数据非常丰富,在baidu和google中都没有搜索到那么多记录。看见这些数据,想起搜索引擎的一个分支:“数据考古”。 看见自己在2002年在网络上面的留言,特别的感慨。 从前大量纠缠在vc++的很多细节,例如界面效果,消息机制,以为记住大量的编程技巧就成了高手原创 2008-05-31 20:55:00 · 877 阅读 · 0 评论 -
为什么我的大学数学相关理论学得差
在课堂上面没有搞清楚理论的来龙去脉。不知道理论是怎么提出的,要解决什么样的问题,缺少对应用场景的理解。例如矩阵论:里面很多知识,包括旋转,矩阵的秩等。缺少相应直观的理解,很多理论就太抽象了。 缺少相应的练习。 许多书籍只是把公司写下来,没有论证的过程。原创 2008-08-24 12:54:00 · 846 阅读 · 0 评论 -
大量使用开放平台的后果
WEB开放平台的发展如火如荼,我们来思考一下开放平台带来的后果。 1、 开放平台类似超级市场。我们把货品放在超级市场卖,用户自由选择需要的东西。零售商将受到极大的打击,换句话说,小网站难以生存。2、 要为开放平台提供更加复杂、多样的应用能够让用户在不离开这个平台的前提下,得到他所想要的应用这些应用不应该仅仅是一些小游戏、新闻、时钟这类应用。3、 抓取开原创 2008-05-24 14:51:00 · 902 阅读 · 0 评论 -
怎么样才能确保一个项目顺利可行?
1、 选择一个合适的项目团队。一个由经验的项目负责人。项目负责人的专业知识,性格态度,个人素质都非常重要。如果项目负责人如果性格由缺陷,管理起来非常困难。项目团队的成员也非常重要。成员中必须要由非常有经验的人员。当团队中有新人的时候,为新人安排合适的工作。不要把关键的工作让新人完成,如果一旦新人没有做好,可能影响整个项目的进度。2、 研究硬件软件能否满足需要。3、 研究技术难度,原创 2008-05-19 10:38:00 · 902 阅读 · 0 评论 -
工作总结
1. 管理者自身的素质非常重要。冷静、判断力、相关知识是必不可少的。克服自己的缺点,改正错误的习惯。不要和上司、同事争吵,即时是你觉得受到不公正待遇的时候。耐心和平心静气有利于解决问题,相反只能使问题更加困难。2. 管理更多的是管人。根据不同人,使用不同的管理方法。对每个人都可能不同。3. 在工作中需要不断的沟通。建立各种沟通的渠道。原创 2008-05-19 10:36:00 · 820 阅读 · 0 评论 -
wap 设计的基本原则
由于wap网速慢,输入不是很方便。应该让用户尽量少的输入,尽量少与服务交互。力图让用户很快找到自己感兴趣的东西。尽量少的输入不是不要用户输入。网站界面布局设计必须要有一个统一的理念,力求让用户喜爱,否则网站的风格很可能是自己要的风格,而不是用户喜欢的风格。原创 2008-08-01 11:34:00 · 818 阅读 · 0 评论 -
几个问题
分类和聚类有什么区别?常用的算法是什么?怎么做搜索引擎的摘要?Svm的参数怎么调整?C++ 的STL有哪些容器?怎么使用。原创 2008-07-09 12:10:00 · 511 阅读 · 0 评论 -
如何把握项目的需求&创意
1、 首先需要调查用户的需求,判断哪些东西是用户想要的,哪些东西是用户不想要的。用户不想用的软件一定是失败的软件。2、 迅速做出一个原型,让用户先使用。再提出意见,作进一步的改进。3、 做出原型之后,用户需求讨论会:(1) 首先要确定目标用户,把这些用户集中起来(2) 在开会之前确保用户使用过原型,对软件有一些想法。如果用户还没有使用过这种软件,将非常困原创 2008-06-11 09:38:00 · 682 阅读 · 0 评论 -
linux fork 之后关闭 socket 的结构
while (1){ accept socket if fork { procss close socket exit(0) } else { close socket }}原创 2008-09-03 10:16:00 · 1335 阅读 · 1 评论 -
符号和公式的直观理解
直观的理解对于理论学习和创新有非常大的作用。 |X|:表示X的长度,“|”表示开始和结束。 UML只是对事物的描述方法。让大家用统一的图形沟通,就像用同样的数学符号一样。图像处理中Level set(水平级)算法: 水平级方法用于求图像分割,热力学等等方面。 从水平级的求解直观来看,就是水平级不断扩展、收缩的过程。我们在图像中可以画很多原创 2008-09-03 18:48:00 · 928 阅读 · 0 评论 -
goolge 判断搜索为机器搜索
今天使用google发现,google报告"您的查询看起来类似于来自计算机软件的自动请求。为了保护我们的用户,请原谅我们现在暂时不能处理您的请求。 "非常不方便,必须输入一个识别码。大大降低了用户体验。估计是机器搜索的量太大。Google的服务器实在支撑不了了,不然不会出此下策。原创 2008-10-06 10:59:00 · 742 阅读 · 0 评论 -
敏捷开发任务认领
首先把项目分成很多个子任务,并且讨论任务应该怎么完成。经过比较详细的讨论,大家对任务都有比较详细的认识,每个人在选择任务都可以做到心中有数。这种形式比较好,每个人可以选自己擅长或者喜欢的工作,并且估计时间。如果多个人选择同样的任务,要么就共同完成,要么就PK。充分展现了组员的想法,也可以促进大家的学习。而不是leader分配任务给每个人。 但是可能工作的压力也比较大。原创 2008-10-05 17:03:00 · 1630 阅读 · 2 评论 -
开发:从windows到linux
从大学阶段基本上一直使用windows。用linux的时候只是因为课程学习的需要。 换了工作之后,需要在linux下开发C++。理所当然的开始学起了C++的编译工具,以及相关脚本语言等工具。从g++,makefile的文件格式,到gdb调试,再到python、awk、perl脚本,shell命令,vi命令。一个月下来学习了很多的东西。感谢学习过程中,我们组的同事对我的支持原创 2008-09-10 22:07:00 · 864 阅读 · 0 评论 -
理发师悖论与集合
由著名数学家伯特兰·罗素(Russel,1872—1970)提出的悖论与之相似:在某个城市中有一位理发师,他的广告词是这样写的:“本人的理发技艺十分高超,誉满全城。我将为本城所有不给自己刮脸的人刮脸,我也只给这些人刮脸。我对各位表示热诚欢迎!”来找他刮脸的人络绎不绝,自然都是那些不给自己刮脸的人。可是,有一天,这位理发师从镜子里看见自己的胡子长了,他本能地抓起了剃刀,你们看他能不能给他自己刮脸呢?原创 2008-09-06 12:40:00 · 1327 阅读 · 0 评论 -
互联网公司竞争日趋激烈
最近微软要并购雅虎来提升互联网竞争力,结果收购不成功。 百度进军IM市场,要从腾讯手中抢地盘。另外还有MSN,泡泡等IM已经取得了一定的份额。 百度开始做B2C,准备搞电子商务。力图与淘宝,拍拍等一争高下。 金山也与Google合作,推出“谷歌金山词霸合作版”。经一步稳定电子词典的地位,并向互联网迈进。 网游企业更是游击原创 2008-09-05 09:12:00 · 892 阅读 · 1 评论 -
画图工具
eDraw 很不错的画图工具。除了可以画uml,还可以画思维图等等。原创 2008-09-02 09:07:00 · 728 阅读 · 0 评论