- 博客(847)
- 资源 (41)
- 收藏
- 关注
原创 Double Array Trie
Trie逻辑结构 Trie是一种常见的数据结够,可以实现前缀匹配(hash是不行的),而且对于词典搜索来说也是O(1)的时间复杂度,虽然比不上Hash,但是空间会省不少。 比如下图表示了包含“pool, prize, preview, prepare, product, progress"的一个Trie Trie的逻辑
2012-12-22 15:44:01 1332
原创 语言模型训练工具SRILM详解
SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。关于SRILM的安装,我已经在前面关于moses平台搭建的文章(参见:《Moses相关介绍》和《Ubuntu8.10下moses测试平台搭建全记录》) 中介绍过了,这里就不再重复。准确的说,SRILM并不
2012-12-21 22:40:44 11951
原创 LDA模型学习(代码)
为了把LDA算法用于文本聚类,我真的是绞尽脑汁。除了去看让我头大的概率论、随机过程、高数这些基础的数学知识,还到网上找已经实现的源代码。 最先让我看到署光的是Mallet,我研究了大概一个星期,最后决定放弃了。因为Mallet作者提供的例子实在太少了。 回到了网上找到的这样一段源代码:/* * (C) Copyright 2005, Gregor Hein
2012-12-21 22:38:06 8781 14
原创 thrift多线程服务端
接上一篇 thrift一个例子 作为服务端,应该能够同时接收多个客户端传来的数据,所以服务端应该实现多线程机制。按以下3个步骤改写服务端(Serv_server.skeleton.cpp)即可实现多线程。(1)采用线程池的main函数的代码如下:int main(int argc, char **argv) { // thread pool shared_ptrServHa
2012-12-21 22:19:44 5577
原创 C语言调用C++库接口的方法概述
最近需要在由纯c语言编写的代码中调用C++的动态库,在网上找了一些资料,现在总结下解决方法。主要的思想就是将C++的动态库再封装一层,在这一层编写C语言的函数api,这API中使用C++动态库提供的类;具体例子如下:1,假如C++动态库包含如下代码://myclass.h#ifndef _MYCLASS_H#define _MYCLASS_Hclass MyCl
2012-12-21 22:05:45 1400
原创 趋势2012:新一代搜索涌现 3D打印开启新时代
[导读]回顾2012年,新品迸发、移动商机涌现,我们即将进入一个全新的世界纪元,互联网的生存环境正在悄然改变,腾讯科技从纷繁复杂的现象中抽丝剥茧,这九大趋势您必须关注。【趋势·2012之一】新一代搜索:再见了,海量链接!腾讯科技 王鑫/文“关于理想我从来没选择放弃,即使在灰头土脸的日子里……” 音响里传来一阵歌声,似曾相识却苦苦想不出这首歌的名字。这时,朋友拿出手机,点了两
2012-12-21 09:11:46 1155
原创 【理论】理性交易策略的七种基本类型
交易系统的生命来源于交易策略。只见树林,不见森林;只见森林,不见生态。这也是我们常干的事。在交易策略这个问题上,相信目前还没有多少人能见到森林(当然包括我自己)。从最近的畅销书排行榜就能看出,我们中间多数人对交易策略的认识还只盯于跟庄这一种类型。实际上,理性的交易策略应该包括以下七种基本类型:(一)价值型策略 即着眼于股票的内在价值。最典型的一个是巴菲特,完全从公司基本面上寻找投资机会。
2012-12-21 09:04:09 1614
原创 我眼中的程序化交易之路
对于打算在程序化交易中获得成长或获利的交易者来说,在对编程语言和平台有基本了解之后,看下文应该会很有启发。一、多大程度上用程序化交易,或者说如何处理程序化交易与自己原有交易系统的关系。 我自己接触过的相关交易者,有如下几种: 第一种人,是老期货,之前有过较长时间的非程序化成功盈利的经历,通常是一种基于主观判断的技术流交易系统。在选择尝试程序化之后,试图实现或部分实现自己现有的交易系
2012-12-21 09:02:48 9944 1
原创 Apple微软Google都在竞购一家创业公司,重点是专利
摘要:据华尔街日报网站报道,Apple、Google和微软三巨头都在竞购一家还处于秘密状态的创业公司。此前,这家公司曾经与Crestron合作,为后者开发了一款Android应用,可以用任意Android手机、平板来控制家里的多媒体设备和其他电器设备包括空调和电灯。他们的网站目前除了这款应用外啥信息都没有。R2 Studios的App产品(图片来自Crestron网站)
2012-12-21 09:01:07 1421
原创 2012年度全美22大最佳初创公司:Pebble上榜
腾讯科技讯(悦潼)北京时间12月16日消息,据国外媒体报道,美国博客网站Businessinsider近日撰文,评选出2012年美国22家最佳初创业公司。 今年出现了大量的初创业公司,但只有少部分发展起来。通过对科技高管、创建人和投资者的调查发现,以下22家初创业公司被评为今年的最佳初创业公司,业界认为,这些公司在未来的2013年必将有着不俗的表现。 1、SmartThings公司
2012-12-17 09:22:58 1680
原创 世界上最小气VC!每次仅给创业公司投37美元
腾讯科技讯(Kathy)北京时间12月16日消息,据国外媒体报道,上周,马切伊·切格洛夫斯基(Maciej Cegłowski)新成立的创业基金在硅谷引起了小小轰动。它不仅成了Twitter上的热门话题,上了精英云集的“黑客新闻”论坛头条,还吸引数十个申请者。该基金的特色在于:极端小气。这个基金的名字叫做Pinboard Investment Co-Prosperity Cloud,以下称为“
2012-12-17 09:22:29 1000
原创 2013年科技界十大预测
据新浪科技报道,美国商业智能软件开发商GoodData创始人、CEO罗曼·斯坦尼克(Roman Stanek)周二在《福布斯》杂志网络版撰文,对2013年科技行业发展趋势进行了预测。他认为,惠普明年将一分为二,戴尔或诺基亚将消失,而Twitter将成为一家真正全球化的媒体公司。我认为,2013年将是云计算取得重大发展的一年,将给IT行业带来颠覆性变革。一些科技巨头将陷入困境,同时也让我们迄今未
2012-12-12 18:16:30 973
原创 移动互联网时代创业者应关注的九个新兴领域
[导读]传统的互联网巨头在移动互联网时代正面临前所未有的挑战,而这也正是中小企业崛起的最佳时机。生活服务、移动搜索、移动医疗等九个创新性领域,或许将为创业公司指明一条发展的道路。转播到腾讯微博红杉资本副总裁曹毅(微博)(腾讯科技配图)腾讯科技 孙实 11月20日综合报道每一次产业变迁都将推动企业颠覆式的新老交替,这种情况在PC向移动互联网变迁的过程中已经出现,传
2012-11-20 15:26:24 1224
原创 人工智能技术的新用途:精准营销
数十年来,“人工智能(AI)”一直是计算机业界追求的梦想。而现在,它以人们所意想不到的方式出现在了我们面前。 人工智能领域已经取得了一系列令人惊叹的业绩,例如,1997年IBM研发的超级电脑“深蓝”击败国际象棋特级大师加里•卡斯帕罗夫(Garry Kasparov),2011年IBM计算机“沃森”在智力竞赛节目《危险边缘》中击败常胜冠军肯•詹宁斯(Ken Jennings),但到目前为止
2012-11-15 22:44:30 1807
原创 淘宝技术发展(引言)
转自:http://blog.sina.com.cn/s/blog_633219970100x9cc.html 光棍节的狂欢“时间到,开抢!”坐在电脑前早已等待多时的小美一看时间已到2011年11月11日零时,便迫不及待地投身于淘宝商城一年一度的大型网购促销活动——“淘宝双11购物狂欢节”。小美打开早已收藏好的宝贝——某品牌的雪地靴,飞快的点击购买,付款,一回头发现3000
2012-11-15 18:43:05 1847
原创 从P1到P7——我在淘宝这7年
转自:http://kb.cnblogs.com/page/132752/(一) 2011-12-08 [原文链接] 今天有同事恭喜我,我才知道自己在淘宝已经七周年了。很多人第一句话就是七年痒不痒,老实说,也曾经痒过,但往往都是一痒而过,又投入到水深火热的工作中去。回家之后就想这七年我到底收获了什么,且不论成败与否,这7年的经历,是我人生的宝贵财富。 第一年: '正
2012-11-15 18:42:15 3819 1
原创 第一时间揭秘:帮奥巴马获胜的数据处理团队
第一时间揭秘:帮奥巴马获胜的数据处理团队 依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来 奥巴马连任成功。虎嗅曾在“奥巴马如何玩转社交”里介绍了奥巴马团队如何与时俱进地利用各种新兴社交平台。玩转社交,这是奥巴马获取民意的前台表现。而在后台,是什么支撑着奥巴马各种竞选策略的出台呢?是什么决定他应该到哪些社交平台上去亮相呢?他的一个几十人数据分析与
2012-11-08 19:45:47 2986
原创 手机号——三大运营商的号段分配
腾讯科技讯 (宗秀倩)11月7日消息,从中国移动(微博)获悉,中国移动近日获批了184号段,新增1亿个移动号码,至此中国移动已经获得17个号段。据了解,此前中国移动已经拥有1340-1348、135-139、150-152、157-159、182-184187和188共17个号段,以及147为移动TD数据卡号段。中国移动内部人士表示,由于移动用户的增长,地方移动公司号码分配紧张,经中国移动
2012-11-07 14:06:48 7894
原创 thrift一个例子
我用的是c++,所以我举一个c++的例子,简单说一下thrift的使用入门。例子描述是这样的:我们将学生信息(学号,姓名,性别,年龄)由客户端发送到服务端。实现这个例子,我们大致要做以下几部分事情:(1)书写.thrift文件(2)生成cpp文件(3)编写客户端(4)编译cpp文件并执行 (1)书写.thrift文件学生信息是有结构的,所以我们使用thrift的
2012-11-06 17:58:12 1479
原创 thrift安装
Thrift是Facebook开发出的一个软件库和一组代码生成工具,以加快高效率、可扩展的后端服务的开发与实现的速度。它通过对各语言最常用的部分加以抽象,把它们放进一个通用库里,再用各个语言实现,来实现跨编程语言的高效而可靠的通信。亦即,Thrift允许开发者在一个单独的语言无关的文件里,定义数据类型和服务接口,然后生成用来构建RPC客户和服务器所需的全部代码。 从官方网站(http:
2012-11-06 17:54:26 1045
原创 怎么做难做的本地生活服务?
怎么做难做的本地生活服务? 所有想真正做O2O的创业者,最好先有一个线下的公司或者业务来练手!虎嗅注:本文来自“TMT青年沙龙”的行业交流干货分享,由TMT青年沙龙授权虎嗅独家发布。TMT青年沙龙是由一群来自互联网、传统IT及通信界的年轻人举办的私密交流活动,是京、沪两地TMT圈最具影响力的青年组织之一,会员达1200余人,覆盖行业分析师、上市公司、投资机构、互联网、创业、咨询、法律、财务
2012-10-26 22:54:53 2798
原创 移动互联网下的九大创新性领域
中国移动互联网是一个巨大的金矿,会带来九大领域的创新。 第一个获得大改变的行业就是衣食住行。这些公司利用了吃喝玩乐本地化这么一个特征,运用无线互联网给客户带来全新的感受。比如大众点评网,从传统PC起家,但是移动互联网的发展让它上了一个新的台阶。 第二个领域是健康和医疗行业。在中国,大家还没有感受到,但在美国,就有一个跟手机挂钩、关联的,跟运动配套的产品,出货量已达两百多万。通过这样
2012-10-26 22:51:41 1225
原创 【转】PLSA 与 LSA
1. 引子Bag-of-Words 模型是NLP和IR领域中的一个基本假设。在这个模型中,一个文档(document)被表示为一组单词(word/term)的无序组合,而忽略了语法或者词序的部分。BOW在传统NLP领域取得了巨大的成功,在计算机视觉领域(Computer Vision)也开始崭露头角,但在实际应用过程中,它却有一些不可避免的缺陷,比如:稀疏性(Sparseness):
2012-10-26 13:29:37 1390 1
原创 LSA & PLSA
【Latent semantic analysis】LSA最初是用在语义检索上,为了解决一词多义和一义多词的问题:1.一词多义: 美女和PPMM表示相同的含义,但是单纯依靠检索词“美女”来检索文档,很可能丧失掉那些包含“PPMM”的文档。2.一义多词:如果输入检索词是多个检索词组成的一个小document,例如“清澈 孩子”,那我们就知道这段文字主要想表达concept是和道德相关的,
2012-10-26 13:28:59 2365
原创 2012,当我们谈论移动互联网创业时,我们在谈论些什么?
2012年的移动互联网市场可以用“冰火两重天”来形容。根据Google官方数据,Android设备激活量在2012 年3-6月4个月内,由3亿部增长至4亿部,增长率为33%。据苹果官方数字,iOS设备激活量从2012年4-6月由3.6亿部增长至4.1亿部,增长 了12%。而对于中国市场,根据友盟的数据,2012年第二季度Android App启动次数增长159%;iOS活跃设备增长42%,iO
2012-10-25 09:18:38 1191
原创 简单LRU算法实现的Cache(C++)
print?#pragma once #include #include templatetypename CacheKey, typename CacheValue> class LRUCache { public: LRUCache(void); LRUCache(int capacity); ~LRUCache(void);
2012-10-23 20:44:07 2022
原创 义乌一院校专门培养“网络小贩”90后年入百万
值班的学生连夜发货。上课的教室像个杂货铺。上课的教室像个杂货铺。义乌一高职院校专门培养“网络小贩” 周边村借势发展电子商务变成“淘宝村”一入学就开淘宝店、课堂上允许接单、淘宝业绩代替学分,义乌工商学院的创业班被称作“淘宝班”,今年6月,创业班的第一届学生正式从学校毕业。10月8日,新一届的大一新生刚刚结束军训已完成了淘宝店铺的注册。老师开始指导新生对
2012-10-16 15:45:25 3844
原创 华尔街日报:雅虎站在移动互联网时代悬崖边
[导读]在如今的移动互联网时代,雅虎早已沦为谷歌和苹果的手下败将,即便雅虎愤然求变,恐怕也未必能救公司于水火之中。 转播到腾讯微博Facebook IPO后雅虎及Facebook股价表现(腾讯科技配图) 腾讯科技讯(汤姆)北京时间10月16日消息,据国外媒体报道,《华尔街日报》日前发表了一篇名为《雅虎同样面临移动悬崖》(Yahoo Also Faces th
2012-10-16 15:41:14 2081
原创 linux下rsync实现文件备份同步
转自:http://www.mike.org.cn/blog/index.php?load=read&id=639###pp=0[rsync实现网站的备份,文件的同步,不同系统的文件的同步,如果是windows的话,需要windows版本cwrsync]一、什么是rsync rsync,remote synchronize顾名思意就知道它是一款实现远程同步功能的软件,它在同步文件的
2012-10-15 20:29:41 2430
原创 IT未来发展五大趋势
摘要:预测IT科技的发展趋势是非常困难的事情,TechRepublic请教了五位科技领域内的专家,试图预测IT将来在企业内部或外部的发展情况。这5位专家在自己擅长的、重要的IT增长领域给出了他们自己的一些预测。是否拥有一个关于创新可以影响商业发展的想法,是区分好的CIO与伟大的CIO的条件之一。所以,商业科技的下一步发展是什么?TechRepublic请教了五位科技领域
2012-10-10 09:40:14 1800
原创 搜索引擎反作弊之:整体技术思路
本文节选自《这就是搜索引擎:核心技术详解》第八章 如上所述,目前搜索引擎作弊手段五花八门,层出不穷,作为应对方的搜索引擎,也相应调整技术思路,不断有针对性地提出反作弊的技术方案,所以如果整理反作弊技术方案,会发现技术方法很多,理清思路不易。 尽管如此,如果对大多数反作弊技术深入分析,会发现在整体技术思路上还是有规律可循。从基本的思路角度,可以将反作弊手段大致划分为以下三种:
2012-10-08 14:54:33 1373
原创 搜索引擎反作弊之:链接作弊与隐藏作弊
本文节选自《这就是搜索引擎:核心技术详解》第八章8.2 链接作弊 所谓“链接作弊”,是网站拥有者考虑到搜索引擎排名中利用了“链接分析”技术,所以通过操纵页面之间的链接关系,或者操纵页面之间的链接锚文字,以此来增加链接排序因子的得分,并影响搜索结果排名的作弊方法。常见的链接作弊方法众多,此节简述几种比较流行的作弊方法。 1.链接农场(Link Farm) 为了
2012-10-08 14:53:51 1898
原创 搜索引擎反作弊之内容作弊
本文节选自《这就是搜索引擎:核心技术详解》第八章 网页反作弊是目前所有商业搜索引擎需要解决的重要难点,出于商业利益驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提高网站排名,这种行为本身无可厚非,很多优化行为是符合搜索引擎排序规则的,但是也存在一些恶意的优化行为,通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置,这样会严重影响搜索引擎用户的搜索体验
2012-10-08 14:52:55 1709
原创 9家在iOS平台上收入最高的中国公司
摘要:都说移动开发热,但是真正赚到钱的有多少呢?一家网站花时间整理了一份号称“全中国最赚钱的9家iOS开发商”,虽然很多营收数据并未注明,不过根据我们的了解,这个榜单基本属实。从这9家情况来看,经纬创投与红杉资本在这领域表现活跃,依照惯例,经纬投初创期,红杉投成长期。导读:都说移动开发热,但是真正赚到钱的有多少呢?一家网站花时间整理了一份号称“全中国最赚钱的9家iOS开发商
2012-09-17 09:06:35 6065
原创 基于LDA的Topic Model变形
最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人。我主要关注了下面这位大牛和他的学生:David M. BleiLDA的创始者,04年博士毕业。一篇关于Topic Model的博士论文充分体现其精深的数学概率功底;而其自己实现的LDA又可体现其不俗的编程能力。说人无用,有论文为证:J. Chang and D. Blei. Relational Topic
2012-09-14 17:48:24 1862
原创 Topic Model的分类和设计原则
topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一个离散数据集合(如文档集合,图片集合,为行文方便,本文统统以文档集合作为描述对象,其他的数据集合只需换掉对应的术语即可)是由隐含在数据集合背后的topic set 生成的,这个set中的每一个topic都是词的概率分布。对于文档中的每一篇文档,先
2012-09-14 17:47:44 1790
原创 主题模型(topic model)的提出及发展历史
topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有广泛的应用,本文将对目前已有的topic model进行分类总结,然后选择几个代表性的topic model进行较为详细的介绍,从而理解topic model 的思想,以及怎么应用。topic model最经典的模型之一是LDA(latent dirichlet alloc
2012-09-14 17:47:17 5499
原创 看懂信息检索和网络数据挖掘领域论文的必备知识总结
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。
2012-09-14 17:46:29 1693
原创 gdb调试 打印输出长变量的值到外部文本里
1. gdb调试 打印输出长变量的值到外部文本里在gdb调试中调用:dump memory out_alan1 pagebuf pagebuf+nret pagebuf:起始位置指针 pagebuf+nret:结束位置指针 2. gdb调试正在运行的进程http://hi.baidu.com/brady_home/blog/item/6b9
2012-09-14 17:29:49 23897
原创 《爆发》作者:大数据领域将有新赢家
新浪科技讯 9月9日下午消息,全球复杂网络研究专家日前到访中国,为其新作《爆发》作宣传。他在接受国内媒体采访时表示,未来可能有新公司取代谷歌、Facebook等公司,成为大数据领域的赢家。 《爆发》一书是一本讨论大数据问题的商业书籍。作为复杂网络研究的权威,巴拉巴西在大数据兴起的背景下,得出一个结论性的判断,认为人类行为93%是可以预测的。 巴拉巴西的研究是在人类生活数字化的大
2012-09-09 18:35:03 3181
OpenRS— 开放式遥感数据处理与服务平台资料
2009-06-19
TinyXML解析xml文档
2008-12-29
Web+Services发布与调用(axis,xfire).doc
2008-12-27
COM+ Services.doc
2008-08-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人