自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

架构和代码

内容比较杂

转载 Apache Doris和ClickHouse的深度分析

2021-10-13背景介绍Apache Doris是由百度贡献的开源MPP分析型数据库产品,亚秒级查询响应时间,支持实时数据分析;分布式架构简洁,易于运维,可以支持10PB以上的超大数据集;可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。ClickHouse是俄罗斯的搜索公司Yadex开源的MPP架构的分析引擎,号称比事务数据库块100-1000倍,团队有计算机体系结构的大牛,最大的特色是高性能的向量化执行引擎,而且功能丰富、可靠性高。京

2021-10-20 13:32:13 2874

转载 京东OLAP亿级查询高可用实践(转)

​​​​​​https://wemp.app/posts/4a0cffbf-63e7-4592-8efa-6e47f8f58d32OLAP(On-Line Analytical Processing)是联机分析处理,它主要用于支持企业决策和经营管理,是许多报表、商业智能和分析系统的底层支撑组件,支持从海量数据中快速获取数据指标。京东OLAP的发展历经Druid、Kylin、Doris和ClickHouse,广泛服务于京东各个子集团和各类场景中,经历了数次大促的考验无事故,本文会重点以ClickHou

2021-10-09 10:50:25 120

原创 TPC-DS用于Clickhouse和Doris性能测试

大致介绍TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。Clickhous...

2020-05-07 16:27:51 5861 4

原创 Clickhouse在Docker中的编译、安装和集群部署

Clickhouse是俄罗斯Yandex公司开源的OLAP系统,单表性能最好,最近两年发展很快。百度开源的Doris是另外一个,我上次记录了百度开源OLAP系统Apache Doris在Centos7.0下编译和安装。Clickhouse官网Clickhouse GitHub地址Doris官网Doris GitHub地址这两个系统因为源码编译和安装比较麻烦,估计很多人会卡在这一步,不利...

2020-04-29 19:40:03 1591

原创 百度开源OLAP系统Apache Doris在Centos7.0下编译和安装

Doris是百度2017年开源的OLAP系统,能够支撑10P级的数据规模,每天几百亿条写入量,秒级百亿条查询,在数据查询、报表BI、用户行为分析系统,甚至交互式分析中广泛应用。 官方文档:http://doris.apache.org/ github地址:https://github.com/apache/incubator-doris 但是因为系统很庞大,结...

2020-03-29 21:38:05 3291

原创 std map erase的问题记录

网上各种erase的版本不可信,还是自己试验了一下。erase删除迭代器或者Key后,指针会指向下一个迭代器,如果此时再it++,就多移动了一次。http://www.cplusplus.com/reference/map/map/erase/The other versions return an iterator to the element that follows the la...

2020-01-08 17:32:27 200

原创 中文分词的一些研究记录

这两天想了解一下中文分词的一些技术,因此就研究了一把,也就是了解了一些皮毛,记录下来,首先申明我是外行,请勿用专业标准来要去我。 中文分词,主要是三个流派,一是词典派,一是统计派,一是规则派。比如“我爱北京天安门”,词典派就是去查词典,词典中中有“我”,“爱”,“北京”和“天安门”,就分出来了,简单吧。词典派的算法一般是最大匹配算法,比如“北京华烟云”,正向最大匹配就是“北京 华...

2019-11-12 11:36:51 7126 5

原创 CryptoKittes(加密猫,谜恋猫)智能合约结构和源码解析

  CryptoKittes(加密猫、谜恋猫,https://www.cryptokitties.co/)是运行在以太坊上的一个游戏。 谜恋猫是世界首款架构在区块链技术上的数字猫收集与繁殖游戏,同样的技术突破使得比特币和以太坊的运作的基础。  具体可以参考如下两篇参考资料:【CryptoKitties源码解析】养猫的正确姿势!教程 | 如何在Ethereum上编写自己的CryptoKitties风...

2018-03-06 22:24:53 7739

原创 一个最简单的内存池AutoMemory

C/C++中内存管理是个最麻烦的事情,内存申请释放,内存泄露,内存越界,甚至是内存碎片,就会导致程序出Core或者变慢。如何有效的管理内存,有很多方法,我认为最简单的方式是用一个内存池来管理内存。    谈到内存池的时候,就有必要说下程序的生命周期和作用域,数据分为三类:1类是进程数据(全局数据)。2、线程数据,每一个线程一份。3、请求数据,每一次调用一份。            如果

2016-08-18 16:28:59 1243

原创 MFC中如何利用ffmpeg和SDL2.0多线程多窗口播放摄像头的视频

我前一篇文章,《Window下用DirectShow查找摄像头(含分辨率)和麦克风》,详细介绍了如何查找摄像头和摄像头支持的分辨率信息,查找到摄像头和麦克风之后做什么呢?两个目的,第一个目的是播放,第二个目的是编码之后发送服务器流媒体数据,第三个目的就是存在本地硬盘上了,本文就是播放摄像头采集的数据。 本人初次接触音视频相关的项目,研究了几天,从网上断断续续的找到不少摄像头播放的...

2016-08-07 22:28:37 6060 6

原创 Windows下用DirectShow查找摄像头(含分辨率)和麦克风

在视频聊天、视频会议、在线监控和视频展台等项目中,需要查找出本地电脑上连接的所有摄像头,网上流传比较多的方式是ffmpeg的方式,这种方式可以跨平台,不同的平台下调用不同的库。这种方式在控制台直接打印了摄像头的信息,无法(或者说我暂时没找到)在内存中获取,因此直接采用了DirectShow的方式,DirectShow枚举IMoniker和Ipin。因为网上的文档,不是特别详尽,所以...

2016-08-07 20:35:46 6457 4

原创 Python发送邮件的例子

import base64, smtplibfrom email.mime.text import MIMETextfrom email.header import Headerdef mail_info(data, date): mailserver = "smtp.exmail.qq.com" username = "server@xxx.com" passwo

2015-10-20 12:24:03 1542

原创 2014新手学Android(1)- Android开发环境安装和支持库安装

纯粹是个人兴趣,想学习一下Android的开发。哥之前可是有5年Windows .Net的开发经验,Asp.net和Windows Form玩得很熟。没想到,一接触Android就傻眼了,完全不一样啊,哥不理解啊。Android的发展非常快,如果是11、12、13年的Android技术文章,千万别看,否则会走很多弯路,说多了都是泪啊。一、安装 遇到第一个问题,就是怎么安装An...

2014-11-11 01:52:46 3531

转载 数据挖掘十大经典算法

一、C4.5     C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。二、The k-means algorithm即K-Means算法    k-means

2014-09-23 17:06:00 2194

原创 性能测试、指标和优化 -- 性能相关总结

这篇博文主要是涉及到服务端性能,对于前端性能比较少涉及,但是最后一部分简单介绍了前端(Web页面)的测试和调优。这篇文章最早写于2012年,今天翻出来,又重新梳理了一下。哦,对了,如果对本博客中所有文章有疑问,请发邮件到lihaibo2006$gmail.com,我一般晚上就能看到。

2014-09-17 14:03:37 5065

原创 App开发者如何选择移动广告平台3 - 广告平台的选择标准

App开发者公司,一般是没有能力接品牌的,有能力接品牌的,也会面临两个较大的问题:商业团队、广告填充率、回款周期等一系列的问题。无线商业这块刚开始起步,大多数是没有从业经验的,无论商业产品、设计、运营、销售的人才都不好招聘。除非非常有实力的App,才有可能自己去自己搞一套商业系统。所以,一般App都会选择一个App广告平台,现在国内的移动广告平台公司太多了,知名的全国性的大概有20家以上,不知名地方性的不知道有多少了。怎么选择呢?有如下几个标准。

2014-06-02 18:16:09 3533 1

原创 App开发者如何选择移动广告平台2 - 移动变现模式分析

上面分析了开发者群体,可能并不能涵盖全面,但是每个开发者需要根据自身的特点来选择变现的模式。下面就App的变现模式做一个全面的分析。 游戏、广告、电商是互联网的三种变现模式,移植到移动互联网也同样适用。

2014-06-02 18:08:03 4691

原创 App开发者如何选择移动广告平台1 - 开发者规模分析

国内Apps开发者群体,分为几类:“富二代”、“郭美美”、“中产阶级”、“屌丝”,不同的群体选择广告平台的依据并不一样。

2014-06-02 18:06:45 2361

原创 python获取gbk中文字符

# -*- coding: gbk -*-def getGBK(s): i = 0 first = (int('81',16),int('FE',16)) second1 = (int('40',16),int('7E',16)) second2= (int('80',16),int('FE',16)) buf = [] whil

2012-03-14 23:09:53 5189

原创 用Hyperspace Analogue to Language (HAL)进行短文本扩展

HAL是什么我就不解释了,具体可以参考:http://www.zhan5zhan.com/post/6.html1、何谓短文本  论坛、博客、微博、聊天记录、问答,都可以认为是短文本。虽然博客、论坛也有很多长文本,但是是少数。2、短文本难点  1)不规范、口语化。

2011-09-14 15:33:04 4628

原创 信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC

在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回率也叫查全率,准确率也叫查准率,概念公式:             召回率(Recall)      =  系统检索到的相关文件 /

2011-07-06 22:15:30 55287 15

原创 看到新的CSDN的博客界面,泪流满面

简单回顾一下咱在CSDN混的历史吧02-03年刚毕业,搞.net,当时国内搞的人还少,资料少,经常混.net版。04-05年,慢慢就不混了,偶尔提几个问题,也没有得到解答,还是自己搞定的。05-07年,开了博客,也写过一些文章,主要是asp.net/winform/webservice/sqlserver的,那时候没有意识到这是个好的宣传自己的方式,把自己的探索过程写下来也是给予其他人帮助的一种方

2011-07-02 17:03:54 4835 9

原创 近期推荐引擎、机器学习、自然语言处理看到的一些资料

探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html 探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤http://www.ibm.com/developerworks/cn/web/1103_zhaoct

2011-07-01 15:26:00 4048

原创 Python的subprocess子进程和管道进行交互

在很久以前,我写了一个系列,Python和C和C++的交互,如下http://blog.csdn.net/marising/archive/2008/08/28/2845339.aspx目的是解决Python和C/C++的互操作性的问题,假如性能瓶颈的地方用C来写,而一些外围工作用Python来完成,岂不是完美的结合。今天发现了更方便的方式,就是用subprocess模块,创建子进程,

2011-06-17 14:16:00 41572 6

原创 C/C++计时器检查程序性能

一般设计C/C++程序需要每秒能处理多少的数据,因此可以做一个简单的计时器来计时,代码如下:#ifndef _TIMER_H_#define _TIMER_H_#include #include using namespace std;class Timer{private: timeval tstart; timeval tend;

2011-06-14 11:42:00 3992

原创 SecureCRT自动登陆到服务器的脚本以及脚本编写简单说明

<br />Secure用SSH登陆服务器时,如果服务器较多,登陆一次很麻烦,所以,可以自己编写VBScript来搞定。<br />一、Secure脚本介绍<br />Secure是VBScript脚本,VB脚本的教程,请参考有关文档。<br />Secure自带的对象如下:<br />Application对象,就是crt,是个顶层的对象,所有其他内容都从这个对象中获得<br />Session,会话对象,负责连接相关<br />Tab对象,就是标签页<br />Scree对象,负责交互相关的,比如发送命

2011-05-10 14:49:00 19990

转载 Hadoop错误码速查

<br />转自:http://blog.csdn.net/liuxincumt/archive/2010/12/15/6076903.aspx<br />因为经常遇到各种错误,所以转载过来,以备忘:<br /><br />经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N<br /> <br />"OS error code 1: Operation not permitted"<br />"O

2011-04-21 15:48:00 5309 2

转载 创业与梦想

转载的文章,来自zhouqun.wang的博客http://www.zhuoqun.net/html/y2011/1618.html在两个年轻人在斯坦福实验室里创造 Yahoo! 的时候,互联网的创业就与传奇和梦想划上了等号,之后的 Google 和 Facebook 一次又一次地让所有人确信这一点。它们都诞生在不起眼的大学宿舍,都在很大程度上改变了世界影响了人们的生活。所以在这个创业渐成风气的年代,你总能看到国内很多初创互联网公司大叫“我们年轻,所以我们有梦想”,它们在招聘的时候也会特别注明应聘者一定要有

2011-03-13 22:37:00 2219

原创 Google Python 风格指南

Google Python 风格指南,下面链接是英文原版http://google-styleguide.googlecode.com/svn/trunk/pyguide.html这个是中文版http://www.elias.cn/Python/PythonStyleGuide?from=Develop.PythonStyleGuide我很早以前推荐的C++风格指南http://blog.csdn.net/marising/archive/2010/06/08/5655912.aspx我发现Google真是

2011-03-10 23:28:00 6468

原创 IE8的一个龌龊的选项

<br />就是用IE8打开网页,偶尔会出如下错误,所以,我用taobao采用ie8,其他用firefox或者chrome,这个频率还挺高的,大概1/10吧,刚开始以为是网银的驱动的缘故,没理会,今天一查,发现不是。<br /><br />res://ieframe.dll/acr_depnx_error.htm#<domain>,http://<server>:<port>/forms/frmservlet?config=<config><br />Internet explorer has closed

2011-02-22 22:46:00 3507

原创 朴素贝叶斯用于垃圾页识别

阮一峰的关于贝叶斯的文章,写得比我好,请参考:http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.htmlhttp://www.ruanyifeng.com/blog/2011/08/bay

2011-01-19 11:38:00 4765 1

原创 taobao有用户研究团队吗?

<br />亲爱的淘宝用户:<br />您好!感谢您一直以来对淘宝网的大力支持!<br />本次调查旨在了解您对淘宝网“评价”相关内容的建议与意见。您的反馈会帮助我们改进现有的产品与服务。<br />我们将在认真填写问卷的用户中随机抽取若干名,赠与淘宝特色礼物一份,以表达我们的谢意。再次感谢您的支持!<br />若您已收到此次调研问卷并进行过填答,请忽略此邮件!<br />请点击右侧按钮进入调查:<br />    填写问卷<br />如果按钮无法显示,请打开此链接:http:/

2011-01-12 16:59:00 2870 1

原创 让更多人用到自己的代码,让信仰在风中飘扬

汪峰-信仰在空中飘扬当黎明和落日的光影交错的时刻我们纷纷逃出每一座尖叫的城市一道眩目的光芒在远处天际显现如同自由将我们迷惘的心灵唤醒为拥有正义而灵魂孤独的人显现为放逐的救赎的被遗弃的人显现为寂寞的寻者和伟大的勇士显现照亮他们前方曲折而艰难的道路这不曾是我们想要的生命所有的痛依然都将会远去就在最后可以说出再见之前让我们怀着信仰在空中飘扬那神秘的光芒象暴风雨般凛冽着大地在无情的追问中幻灭成挽歌如梦的迷雾随着诗篇消逝在远山人们高举着手臂期盼着残心如血为弱小的孤儿破碎的母亲而闪耀为挣扎着来自底层的灵魂而闪耀为救赎着

2010-12-27 18:48:00 2544 1

原创 基于Web开发模式的信息抽取

以上的这些方法,都是从网页中的规律考虑,能解决一部分问题,而问题的根源是Web页面是Web工程师开发出来的,研究他们的Web开发习惯和模式对于信息抽取是最根本的,而本人则做过Web开发,所以总结出来几个对信息抽取有用的几个模式

2010-12-27 17:32:00 5006

原创 Google广告分类体系

Google广告的偏好设置,可以设置站点Adsense的出现广告的类别,由此可以看出,Adsense的分类体系如下:1、类别:1578,不算多,也不算少。2、级别:一级大概是26类,一般行业下是3-4级,只有地理位置达到6-7级。3、详细程度:一般只是到《休闲游戏》,《丰田》,《相机》等比较粗略的大类上,但是具体内容、型号等在每个类别上都有体现的,比如”卡罗拉”,“1.8GL-i“ 属于 丰田,在丰田的类别上需要维护系列名、车型、特点等信息。对于广告应用来说,这个分类体系足够了,有志于广告分类于数据挖掘的同

2010-12-14 10:13:00 15608

原创 g++undefined reference可能是链接库的顺序不对

1、undefined reference的问题,一般情况下是函数未实现,或者缺少某些库(未添加或者路径不对),但是有时候明明实现了,库也有,链接时就是找不到。2、链接顺序不对g++链接时,从前到后,依赖多的放在前,依赖少的放在后面,如a被b引用、b被c引用,则顺序为       g++ -lc -lb -la     “越基础的库, 越往后面写”。如果有交叉引用,可以写几次。这次没注意,就搞了好长时间才搞定,下回注意了。

2010-12-10 14:23:00 2216 1

原创 Centos下测试硬盘读写速度

这是在服务器上,读写超快。写速度$dd if=/dev/zero bs=1k count=1000000 of=1Gb.file1000000+0 records in1000000+0 records out1024000000 bytes (1.0 GB) copied, 5.13676 seconds, 199 MB/s读速度$dd if=1Gb.file bs=64k |dd of=/dev/null[haibo@localhost ~]$ dd if=1Gb.file bs=64k |dd

2010-12-01 11:21:00 16878

原创 研发管理的历史文章目录

    最近这三年,在博客上写了一系列的研发管理方面的文章,因为比较分散,所以整理出一个列表出来。这些文章,大多数是和当时的工作实际情况是相关的,不是空谈。2008年11月19日  项目管理--项目规范管理就是官僚作风和形式主义么?点评:当时有人认为计划,设计,例会等项目管理方法是官僚和形式主义,浪费时间,打击大家的积极性,所以,我就写了这篇文章。2008年8月19日 评人月神话--兼谈项目管理点评:重看人月神话的并在豆瓣上发表感慨。豆瓣地址:http://book.douban.com/review/14

2010-11-30 11:22:00 1605 1

原创 VMware 7.1 手动模式安装Centos 5.3

    VMWare 7.1安装Centos5.3时,如果直接安装,不管是自动还是定制(定制指的是VMware的定制),Centos在安装时,都会全自动安装。默认安装是英文,这样,中文显示就会有问题。按照网上的一般方法:    1、yum install fonts-chinese         yum search yum install fonts-ISO8859-2    2、也可以CD设置centos.iso,然后从光盘中找,在/centos/下,找到这两个包,然后安装之,         rpm

2010-10-25 11:40:00 2515

原创 Google买房子的面试题

Google的2011年校园招聘宣讲会分别在北大和清华举行,笔试环节一共10个选择题和三个算法题,其中有一道笔试题令人印象深刻,题目如下:  现在北京有一套房子,价格200万,假设房价每年上涨10%,一个软件工程师每年固定能赚40万。如果他想买这套房子,不贷款,不涨工资,没有其他收入,每年不吃不喝不消费,那么他需要几年才能攒够钱买这套房子?  A, 5年  B, 7年  C, 8年  D, 9年  E, 永远买不起  经过计算可知道,答案是E,这道题目告诉我们,即使Google给你年薪40W,你依旧到死也买

2010-09-29 16:42:00 2920 1

提示
确定要删除当前文章?
取消 删除