自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(263)
  • 收藏
  • 关注

原创 java 命令行参数真简单

public class Main { @Parameter ( names = {"--host"}, description = "Server host name or ip address" ) private String host = null; @Parameter ( names = {"--port"}, description =...

2014-11-11 17:55:06 214

R安装算法包随机森林的问题

在Rstudio和R命令行安装包都不行,如下:> install.packages("randomForest")trying URL 'http://cran.rstudio.com/bin/macosx/contrib/3.1/randomForest_4.6-10.tgz'Content type 'application/x-gzip' length 157609 bytes ...

2014-11-07 23:14:32 1786 1

三言两语谈团队合作

毕业的时候总在简历上写明自己“吃苦耐劳、具备良好的团队合作精神”。工作五年之后才发现团队合作并不仅仅是四个汉字那么简单。刚工作的时候以为一起工作、一起做项目,兄弟几个一起上,就是团队合作。这种理解实在是太肤浅,也是刚工作的人最容易犯的毛病:以为自己蒙头工作,踏实肯干就行了,不喜欢和同事交流,更不愿意和领导交流。要想把工作做好,真正理解团队合作,真正运用团队的力量,我们才能走得更远...

2012-10-10 17:24:41 228

CSDN对推荐系统算法的漠视

互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。 广告对应互联网企业来说是非常重要的。当前g...

2012-03-16 12:55:23 186

原创 深入搜索引擎--机器学习方法

机器学习方法在搜索引擎、计算广告中简直是无处不在。[b]spider模块,我们需要分析一个URL需要多长时间抓取一次?[/b] URL的域名的重要性;URL的目录深度;URL中字符串;[b]这个URL是否需要重复抓取?重复抓取的时间是多少?[/b] 抓取过几次;网页内部有多少新的链接数量?[b]一个网站多长时间抓取页面合适?[/b][b]一个网站的重...

2012-03-14 22:41:37 138

原创 深入搜索引擎--查询(Query)

[b]1.Query的数据分析[/b] Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大...

2012-03-12 22:56:21 628

关键词推荐的几种常见相关性计算方法

当你在互联网使用搜索的时候,关键词推荐可能是你经常使用到的一个辅助工具。如各种搜索引擎搜索框的下拉提示;google 结果页会有“XXX”的“相关搜索”;百度结果页也有提示一组相关搜索词。关键词推荐在文献上一般称为query suggestiong,query expansion,query rewrite,query recommendation。 而这些常见的关键...

2012-03-10 20:30:22 1082

研发过程对比---读《微软的秘密》有感

2010年在成都三官堂买的《微软的秘密》,这两年陆陆续续看了几次。如同《走出软件作坊》的作者阿朱说的一样,每看一次都有一些感想。这本书写的是微软90年代及其之前的开发经验,但是对我们当前的开发来说,仍然有很多值得汲取的经验。当今各种敏捷、scrum开发方法大行其道,可从本质上来说,也是对软件工程管理的改进,希望能够及时、快速的交付更好的软件产品。 书中多次谈到如何决定产品的优先...

2012-03-04 22:04:51 154

NetworkX画图

根据 http://blog.sciencenet.cn/home.php?mod=space&uid=404069&do=blog&id=337442 画图。注意:需要安装setuptools-0.6c11.win32-py2.6.exe,才能安装networkx-1.6-py2.6.egg。可以解决图计算的问题。处理一些简单的demo。matplotlib-1.1.0.wi...

2012-02-28 19:12:12 242

secureCRT常用技巧

SecureCRT 反空闲(anti-idle)的设置方式[img]http://dl.iteye.com/upload/attachment/0063/7723/683b180b-6b2a-3ca3-9b8f-a2daac4d8edd.png[/img]提高缓存屏幕历史页面的行数。便于查看先前的结果。甚至当代码被误删除的时候,可以从缓存的历史中copy出来。[im...

2012-02-26 12:43:07 132

原创 论文阅读总结

以前阅读论文的套路:搜索、下载、阅读,如果好就打印出来,在纸上再阅读注释,读完之后就丢弃了。而一些注释也就散落在各种打印纸上。当时有一些心得体会,没有记录下来,也就淡忘了。 最近希望改变这种状况,在网上找了一下pdf文献管理工具。几经比较,最后选择安装了endnote。它可以对论文分类整理,标注,编辑心得体会,对经验的总结存储非常有好处,也更加清楚论文的来龙去脉,对相关专题的历...

2012-02-14 17:29:33 114

原创 程序路径以及配置文件的习惯问题

每次用别人代码的时候,都希望从svn中check out出来就能够直接运行。但是自己写代码的时候,偶尔还是喜欢用绝对路径。每次写代码,最好能够有一个base dir的变量。一个项目多个安装包,最好能够公用同一个conf文件。便于修改和运行。...

2012-02-03 11:20:56 105

原创 常用书籍

Hadoop权威指南(第2版) [平装] [url]http://www.amazon.cn/Hadoop%E6%9D%83%E5%A8%81%E6%8C%87%E5%8D%97-%E6%80%80%E7%89%B9/dp/B0055QFIA6/ref=sr_1_1?ie=UTF8&qid=1326264636&sr=8-1[/url]搜索引擎:信息检索实践(英文版) [平装][ur...

2012-01-11 15:27:22 169

原创 撰写专利

一个专利从构思、撰写、内部审核、代理撰写和修改、再到受理是一个比较漫长的过程,一般需要好几个月。 在公司的环境下,其实写专利非常有优势。只要针对公司的数据、业务环境做一些优化、改进,提出一个新的算法,解决实际问题就可以完成一个专利。 由于专利代理一般对我们的专业不是很懂,最好在交底书中多一些基础知识的介绍。重要的名称都要解释一下,多举例做一...

2011-11-22 13:36:40 439

原创 批评很简单,解决问题很复杂

在工作中发现问题很简单,你只要仔细看,你就可以发现大量的问题。抱怨也很简单,只要你感觉不爽,工作不好做,业绩没有出来,年底没有加薪没有晋级,抱怨肯定一大堆。但是要解决问题,解决抱怨很难。很多人总是觉得只是同事的问题,主管的问题,HR的问题,公司文化的问题。总之自己问题最少。这种思想态度,到哪里去都非常危险。当我们不从自身出发讨论问题,很容易造成消极的心理,对什么东西都有抵触情绪。如果主...

2011-09-13 10:22:18 142

原创 PPT 母版

通过PPT 母版可以设置每个页面共性的一些信息。

2011-08-23 16:25:57 123

原创 一个团队最首要的是士气

士气遭到打击,短期内很难恢复!如果几个人士气低迷,很容易影响其他人的情绪。如果不能激励大家,很难做出好的业绩。

2011-07-06 09:15:54 200

原创 常用的php代码,hash,split,unset

[size=large][code="php"][/code][/size]

2011-04-26 12:11:58 98

原创 多个排序数组求交集

如果有多个已经按照从小到大排序的数字数组,如何快速的获取这些数组元素交集,即找到一个子集合在所有的数组中都出现。[img]http://dl.iteye.com/upload/attachment/470754/8aa1bdd9-156f-3ca8-a662-868ebbd813ea.jpg[/img]解决办法:(1)找到最短的数组v[i]作为标准数组。目标集合x必然是v[...

2011-04-26 08:01:06 521

原创 身为程序员犯过的错误

以前犯过的错误时,从来不和主管沟通。对项目的看法、思考,只是闷在心里,不与老大沟通。对自己不懂的东西,也从来不和其它同事沟通,觉得自己上网查询一下就可以了。和同事以前做项目的时候,沟通讨论不够。主要是不知道沟通什么。。。没有确定项目的阶段目标、时间点。没有坚持,没有验收。...

2011-04-11 13:22:54 545

原创 Keyword Generation for Search Engine Advertising

关键词推荐的方法:(1)meta tag spider: 通过抓取各种网站的meta数据,把这些mata数据综合在一起,做关键词推荐。 这种方法适合于没有日志的初始网站。 (2)google adwords tool (共同的广告点击): 通过 query log 挖掘关键词。当搜索关键词“A”出了广告x,那么其他关键词也能够出广告x,那么这些关...

2011-04-10 21:27:49 316

原创 tair 的服务器搭建配置

tair 是淘宝的一个开源分布式内存数据库,读写性能都很好,基本配置整理如下:(1)服务器需要配置/opt/csr/tair/etc/group.conf/opt/csr/tair/etc/configserver.conf在configserver.conf文件中注意设置group.conf 的路径(2)数据服务器需要配置:/opt/csr/tair/etc/datase...

2010-11-15 10:15:37 227

原创 最讨厌的广告

广告:http://www.useit.com/alertbox/20041206.html

2010-11-01 14:59:32 146

原创 运行时错误:Bus error

当linux中,一个exe正在使用一个so。这个时候,替我了这个so就会报 Bus error。

2010-10-29 14:16:08 781

原创 linux so动态库文件有一个依赖的文件找不到

[]ldd /home/a/lib64/libalgo.so 返回:liblog4cpp.so.3 => /home/a/lib64/liblog4cpp.so.3 (0x0000002a95691000)libzerg.so => not foundsudo ldconfig 也没有用。最后解决办法:把libalgo.so 所在的rpm包删除;libzer...

2010-10-24 20:18:02 283

原创 常见tar 命令

例1:把/home目录下包括他的子目录全部做备份文档,备份文档名为usr.tar。$ tar cvf usr.tar /home例2:把/home目录下包括他的子目录全部做备份文档,并进行压缩,备份文档名为usr.tar.gz 。$ tar czvf usr.tar.gz /home例3:把usr.tar.gz这个备份文档还原并解压缩。$ tar xzvf ...

2010-10-17 20:10:33 124

原创 筛子的概率问题

筛子的问题http://www.swarmagents.cn/bs/forum/viewblog.asp?id=8647

2010-10-14 20:49:50 492

原创 linux 常用命令 备忘录

yum常用命令很多,需要熟悉:yum install;yum remove;yum list;等等:http://docs.huihoo.com/yum/managing-software-with-yum-zh_cn/index.html常用命令cpu:cat /proc/cpuinfo 内存:free -m硬盘:fdisk -l...

2010-10-13 10:47:37 115

原创 分布函数

Gamma functionhttp://pass2.tk/index.php?q=YUhSMGNEb3ZMMlZ1TG5kcGEybHdaV1JwWVM1dmNtY3ZkMmxyYVM5SFlXMXRZVjltZFc1amRHbHZiZz09&degree0.09521019132807851http://translate.google.com.hk/translate?hl=...

2010-10-07 16:20:05 159

原创 Hive 教程

教程: http://wiki.apache.org/hadoop/Hive/LanguageManual/DDLhttp://www.tbdata.org/archives/499

2010-09-27 17:12:42 76

原创 awk 读取文件 ,文件读取操作,分隔符,hash,打印

awk 'BEGIN{while( (getline line 0 ) { split(line,arr,"\t"); print arr[1],arr[3]; hash[arr[1]]=arr[3];}} {} END{}'|lessawk 教程 : http://www.math.utah.edu/docs/info/ga...

2010-09-27 13:46:21 274

原创 使用了google的搜索订阅功能

在google的gmail里面订阅了两个关键词:“搜索”和“推荐系统”。这样可以知道最近业界在关心的问题,非常省时省力。不够要及时看这些邮件还是一个问题。...

2010-09-24 11:04:40 317

原创 临时文件太多造成系统盘空间不足

系统盘的空间总是不足,找了半天也没有发现运营,最后才发现是用户目录下的临时文件太多。C:\Documents and Settings\$username\Local Settings\Temp

2010-09-24 10:10:07 868

原创 find 命令

#find ./ -type f -name "*.swp"|xargs rm -rf #find . -name "*.cpp" -exec grep "SoapEvMessage" \; -print #find ... -exec rm {} \; #find ... | xargs rm -rf 两者都可以把find命令查找到的结果删除,其区别简单的说是前者是把fin...

2010-09-09 13:16:38 101

原创 使用了fences

梁楷介绍的软件,一个非常好用的桌面管理软件。

2010-09-08 23:36:54 447

原创 推荐系统笔记

系统的特点不以用,需要用不同的推荐系统算法。1)用户在t时刻还干了什么(itemcf就是基于这个假设)2)其他用户在t时刻干了什么(usercf就是基于这个假设)当给用户推荐了不熟悉的音乐,用户就感到陌生,不是很喜欢。...

2010-08-29 20:14:43 81

原创 使用Hive 分析数据

当我们的数据量特别大的时候,我们可以用Hive统计数据。Hive的好处是特别方便,编写程序的难度比较低。输出文件作聚合的方法:[url]http://www.chinacloud.cn/show.aspx?id=3277&cid=12[/url]Map 端部分聚合:并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进行部分聚合,最后在 Red...

2010-08-15 13:37:31 190

用excel 做相关性分析

导入一份数据: year out1999 13736.4 16159.82000 18638.8 20634.42001 20159.2 22024.42002 24430.3 26947.92003 34195.6 36287.92004 36455.8 42456.52005 45212 481122006 48788 534552007 5...

2010-08-04 21:59:14 976

采取行动,解决问题

陶行知很久以前就说过”知易行难“,就是说我们很容易获取知识,但是要真正执行起来却是很难的事情。我们很多人,都知道自己有问题。例如喜欢看电视,衣服随便乱扔,但是要改变这些习惯是非常困难的。为什么我们没有办法解决这些问题呢,就是因为我们知道问题,但是我们没有采取行动。 这一思想贯彻到日常工作中,我们每次会议之后都应该有一些行动(Action),表明我们将要解决什么样的问题,或者说这么...

2010-08-01 14:42:41 228

文本朗读工具的问题

最近用方正畅听听了一些书籍,感受颇多。要朗读中文首先要分词,分词效果非常好,听起来不会有很不自然的感觉,理解书籍没有什么问题。但是这种朗读没有感情,没有跌宕起伏,听起来很平淡,很容易听过去了,但是没有什么感觉。还有一个问题,文章中的一些多音词都没有处理。 ...

2010-07-31 15:20:19 132

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除