Web/数据/云计算
solari_bian
这个作者很懒,什么都没留下…
展开
-
编译安装grpc
环境是ubuntu18.04,系统默认的cmake3.10.参考grpc的文档即可:https://github.com/grpc/grpc/blob/v1.32.0/BUILDING.md将url中v1.32.0改成要安装的版本,不同版本的安装可能不一样。把Pre-requisites里的东西装全了,比如llvm,以后做code generation之类的还有用。然后从git把对应release版本的代码以及submodule拉下来,按照Building with CMake做。由原创 2021-02-04 10:59:19 · 490 阅读 · 0 评论 -
CentOS mirrorlist导致的OpenStack 镜像制作失败
前段时间参考如下方法做了一个Centos6.4的镜像很顺利:https://github.com/globocom/references/wiki/Building-a-CentOS-6.2-image-for-openstack [1]其实顺利的原因在于6.4是目前版本最新的CentOS。相信当时那个作者写那篇文档的时候,最新的版本是6.2.在完成Install the OS这原创 2013-09-29 11:17:26 · 1976 阅读 · 0 评论 -
Hadoop学习笔记【12】-Hadoop2.1全分布式集群安装
1. 环境5个节点,配置如下:dual core x86_64, 4GB RAM, 10GB DiskCentos 6.4_x64OpenJDK 1.7.0_9hadoop-2.1.0-beta互相之间千兆网连接。每台机器上用于安装和启动hadoop的用户名都是xc节点的hostname、安装的服务和ip如下:hostname安装服务ip原创 2013-09-23 22:23:29 · 4858 阅读 · 5 评论 -
Hama学习笔记(4)-消息的发送与存储
Hama的文档目前还不详细,没有找到关于Hama如何发送消息的说明,只好自己动手做实验了。按照BSP的模型,每一个超步应该是有明确的三个步骤的:计算->通信->同步但是Hama当中,在节点进入同步状态之前,是否可以和其他结点即时地收发消息呢?如果可以,无疑会使得bsp程序更加灵活,但是这样也会带来不必要的麻烦:如果bsp程序设计不当,各个节点之间随意通信可能会使得程序的性能非常糟糕。为原创 2013-01-28 13:08:58 · 2208 阅读 · 1 评论 -
C3P0连接池使用小结
C3P0在最近的demo中也用了(我用的是0.9.2.1版本的。),因为单例很难应付大量并发的。【引用请注明出处http://blog.csdn.net/bhq2010/article/details/9219947】用法详见文档:http://www.mchange.com/projects/c3p0/基本的用法在http://www.mchange.com/projects/c3p原创 2013-07-01 22:01:32 · 21830 阅读 · 1 评论 -
在OpenStack虚拟机实例中创建swap分区的一种方法
测试组里一个同学负责MapR的搭建,MapR文档中建议每个节点上至少有24GB的swap分区,不知道MapR为啥会有这种反人类的建议……swap无非就是一块顺序读写的磁盘空间,莫非省着内存不用,用swap能提高效率?也许它用swap来存map-reduce的临时文件?可是既然这么建议了,只好照办,毕竟我们对MapR也不熟悉。要让OpenStack的实例中有swap分区,可以在镜像中加,但是原创 2013-07-13 20:01:33 · 3010 阅读 · 0 评论 -
健壮的JDBC单例
【引用请注明出处:http://blog.csdn.net/bhq2010/article/details/9109539】首先说说我对JDBC单例的理解,之前的一篇博客中对JDBC单例和连接池做了对比:http://blog.csdn.net/bhq2010/article/details/7478659可以看出C3P0适合处理并发量大的访问,不会因为一个慢查询导致后来的查询一直等待,性原创 2013-06-17 09:51:23 · 4431 阅读 · 0 评论 -
获取CentOS软件源中的updates包
之前在本地网络中建了一个CentOS软件源,挺好用的,可是发现有些软件还是装不上,因为系统安装盘中的包并不全,有些软件的依赖在updates源中,updates源在网上,怎么把其中的包拿到呢?一种方法,当然也是最最正常的方法,就是做个计划任务,定时从CentOS官方镜像站中同步。可是我们也就是在本地用用,不需要同步,于是写了个Java程序,找了个速度比较快的镜像(东北大学的,写程序的时候北理工原创 2013-07-13 14:11:13 · 2149 阅读 · 0 评论 -
Ajax使用小结
本科做课设的时候也用过ajax,但是当时做出来的东西在大部分浏览器中都没法异步更新页面内容,当时也就得过且过了。前段时间做demo(万恶的demo让我复习了多少东西……)又把ajax拿过来复习了一遍,终于可以适应主流的ie、firefox、chrome三大浏览器的较新版本(最近1年的版本吧,再早的版本没有试过,但想必也没什么问题)了。小结如下:1、ajax的实现步骤实现ajax异步原创 2013-06-27 10:29:18 · 1866 阅读 · 0 评论 -
struts2标签库使用小结
之前的demo中用了一些struts2标签,用的是struts2.2.1.1.Struts2的标签常常和OGNL(图对象导航语言)一起使用。有几点总结如下:【引用请注明出处:http://blog.csdn.net/bhq2010/article/details/9183591】1、struts2标签必须的jar包struts2标签可以分为数据标签、控制标签、表单标签、AJAX标签原创 2013-06-27 00:43:04 · 6903 阅读 · 0 评论 -
OpenStack的两种存储设备
原文:http://docs.openstack.org/grizzly/openstack-compute/admin/content/storage-and-openstack-compute.html翻译:OpenStack提供两种块存储: ephemeral storage和volumes storage.ephemeral storage 具有和实例相同的生命周期,重启实例并翻译 2013-07-12 01:10:48 · 3649 阅读 · 0 评论 -
Hadoop学习笔记(11)-集群不稳定问题一例(内存不稳定)
集群中有一台机器不稳定,在运行mapreduce和bsp任务时经常会出现IO错误,比如读取文本文件时,会出现只读出半行或者少量乱码的问题。在使用rdf3x的时候,load数据时也会出错。平时那台机器似乎又没什么异常。一直以为是硬盘的问题,排查了很久,最后发现是内存的问题,换了内存就好了。使用普通台式机(不带内存ECC校验)搭建集群的童鞋一定要注意,集群出现IO错误不一定是磁盘的问题,内存也原创 2013-04-19 13:34:48 · 1320 阅读 · 0 评论 -
CentOS 集群自动同步时间的一种方法
之前有篇日志是手动同步时间的http://blog.csdn.net/bhq2010/article/details/8543946之所以这么干,是因为我们实验室的局域网只有一部分IP可以访问外网,服务器所用的IP恰好上不了外网,没法从互联网上同步时间,只好在本地设一台ntp服务器,从这一台机器同步时间了。可是昨晚上实验室停电,今天早上开机之后发现服务器的时间差了不少(那几台作为服务器的台原创 2013-04-12 12:45:56 · 1690 阅读 · 0 评论 -
写分布式程序经验小结
从学习hadoop到现在有一年多了,前段时间又接触了hbase和hama,小结一下一点经验吧,当然这些经验出自小菜,很可能适用性不广,大家慎重采纳。写程序前先写好以下4部分:[转载请注明出处:http://blog.csdn.net/bhq2010/article/details/8780613]1、日志处理程序分布式程序的日志是很重要的,因为几乎没法单步调试分布式的程序。日志可以原创 2013-04-10 00:08:24 · 4393 阅读 · 1 评论 -
JavaCC使用小结
项目中用的JavaCC做查询编译,在这里小结一下,作为备忘。JavaCC是一个很不错的词法、语法解析器的生成器,只需要编写规则就可以生成Java语言的词法、语法解析器(新版本的JavaCC还支持C/C++作为目标语言)。JavaCC相当与Yacc/Bison+Lex/Flex很类似。[引用请注明出处:http://blog.csdn.net/bhq2010/article/details/原创 2013-04-06 15:03:22 · 20805 阅读 · 2 评论 -
Hama学习笔记(3)-编写BSP程序
Hama中提供了BSP框架的编程接口,就像MapReduce一样方便使用。[引用请注明出处:http://blog.csdn.net/bhq2010/article/details/8531243]BSP框架首先明确一下BSP的概念:BSP是一个计算框架,按照这个框架编写的BSP程序会在集群的各个节点上做本地的I/O和计算,这一点和MapReduce相似(其实BSP的提出比原创 2013-01-22 20:26:18 · 4289 阅读 · 0 评论 -
redis配置问题
昨晚上用redis,今天上去看看发现有些问题,还是配置的问题。1、max clients参考:http://www.cnblogs.com/feisky/archive/2013/01/30/2882459.html2、vm.overcommit_memory这里是操作系统分配内存的设置项,vm应该是指虚拟内存,因为linux的所有进程都是在虚拟内存中执行的。参考:http:/原创 2013-03-23 03:34:07 · 1200 阅读 · 0 评论 -
postgresql学习笔记【2】-pg的文件与目录
打算在刚开始的时候参考《Postgresql数据库内核分析》和PG的文档来学习。先了解了一下安装和启动pg之后,pg会在一台机器上创建那些文件和目录。了解目录和文件之前,先看了一下pg的架构。pg采用的是常见的C/S架构,服务器端叫做postgres(服务器端的主程序和进程都叫这个名字,启动pg之后在服务器上至少可以看到6个postgres进程,对应于pg的几个主要的模块,并且每增加一个客户端原创 2013-10-07 16:29:06 · 9478 阅读 · 0 评论 -
为OpenStack制作CentOS镜像的一种方法
Ubuntu和Fedora都有官方的系统镜像,偏偏CentOS没有,网上能找到一些也都不甚靠谱,加之在我们自己的项目中有一些需要自己定制的东西,所以还是自己做镜像比较合适。为OpenStack制作CentOS系统镜像,官方的在线文档以及网上很多资料中给出了一种方法,即利用virt-install或者kvm创建虚拟机之后通过vnc安装系统、配置系统参数,最后上传到OpenStack中,参考:原创 2013-07-13 16:36:20 · 9829 阅读 · 0 评论 -
CarbonData源码阅读(2)-Hadoop InputFormat
Presto Integration之前已经读过了:http://blog.csdn.net/bhq2010/article/details/72972278 这个里面沿着CarbondataPlugin –> CarbondataConnectory –> CarbondataConnector –> CarbondataMetadata (以及org.apache.carbondata.pre原创 2017-07-09 17:50:05 · 992 阅读 · 0 评论 -
Spark中配置Parquet参数
Parquet的参数,例如block size、压缩格式等,需要spark contex对象上调用setHadoopConf来设置。原创 2015-05-04 10:20:38 · 4890 阅读 · 0 评论 -
Spark parquet merge metadata问题
在spark sql 1.2.x当中存在一个问题:当我们尝试在一个查询中访问多个parquet文件时,如果这些parquet文件中的字段名和类型是完全一致的、只是字段的顺序不一样,例如一个文件中是name string, id int,另一个文件是id int, name string时,查询会报错,抛出metadata merge的异常。在1.3当中,这个问题其实已经解决。那么在1.2.原创 2015-05-05 13:03:36 · 4049 阅读 · 0 评论 -
Hive Parquet配置
parquet的配置主要包括:parquet.compression.codecparquet.block.sizeparquet.page.size等,详见:https://github.com/Parquet/parquet-mr/blob/master/parquet-hadoop/src/main/java/parquet/hadoop/ParquetOutputFor原创 2015-01-30 22:43:55 · 14511 阅读 · 0 评论 -
yum局域网软件源搭建
之前的Demo算是告一段落了,期末的各种考试报告也结束了。暑假的一项任务就是和其他几个同学一起,在服务器上安装openstack,虚拟出更多的机器,对各种分布式/并行数据分析平台进行测试。目前才刚刚把openstack平台搭建起来,正在安装各种待测试的系统,一个比较现实的问题就是:由于机房路由的关系,服务器和虚拟出的机器是不能直接访问外网的,通过代理的下载速度又很慢,所以需要在局域网中搭建原创 2013-07-03 23:34:41 · 3798 阅读 · 0 评论 -
HDFS 上传文件不均衡和Balancer太慢的问题
向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的。解决的办法:1、从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点(直接从非datanode的namenode上传也可以,但是这样不太好,会增加namenode的负担,并且时间长了会让namenode原创 2014-11-07 15:00:27 · 10972 阅读 · 2 评论 -
HDFS Safemode问题
处于safemode的集群是无法接收任何写操作的,包括创建目录、删除文件、修改文件、上传文件等等。关于safemode,在http://www.iteblog.com/archives/977中讲的比较详细了。hdfs集群在启动和关闭的时候一般会有一段时间处于safemode,如果集群中出现了大量的block副本数量低于配置的副本数据量(这个副本数量的配置并不一定是在hdfs的配置文件中配的,原创 2014-11-07 13:10:56 · 4798 阅读 · 0 评论 -
Java HttpClient使用小结
httpclient是apache的一个项目:http://hc.apache.org/文档比较完善:http://hc.apache.org/httpcomponents-client-ga/tutorial/html/这里就不啰嗦了,主要是在做demo的时候遇到的一些问题在这里总结一下:[引用请注明出处http://blog.csdn.net/bhq2010/article/det原创 2013-07-01 00:36:22 · 84500 阅读 · 7 评论 -
[impala]cloudera-scm-server dead but pid file exists问题解决
用impala做实验遇到了cloudera-scm-server dead but pid file exists问题。问题发生的经过是这样的:首先我在单机配置的为2核4GB内存的5台虚拟机上安装了cloudera manager,然后用它安装了cdh和impala然后一切都是正常的,我就往集群的hdfs里面导入了100GB的数据然后一切仍然是正常的,可是突然有一天,clouder原创 2014-03-08 10:32:58 · 25604 阅读 · 4 评论 -
众核上的数据仓库并行优化
近几年众核硬件逐渐被应用到数据仓库产品当中。目前主要的众核硬件包括以Intel SCC为代表的众核CPU、以Intel志强融核系列为代表的众核协处理器、以NVIDIA和AMD为代表的众核GPU。本文第一章介绍目前的主要的众核硬件及其特性,并从性价比和通用性方面对众核硬件进行比较;第二章介绍目前数据仓库中典型操作符在众核硬件上的优化技术。1. 主要众核硬件1.1. 多核CPU多核的CPU原创 2014-01-09 08:12:10 · 2447 阅读 · 0 评论 -
hive mapred.job.tracker设置
在cdh-hive0.10中建rcfile存储格式的表,发现hive启动了一个local hadoop来进行格式转换,也就是用一个单机版的mapreduce来做。奇慢无比。解决办法如下:进入hive cli之后,执行:hive> SET mapred.job.tracker=impala11:8021其中impala11:8021是hadoop jobtracker的主机名和端口。原创 2013-12-01 23:29:01 · 4096 阅读 · 0 评论 -
Infobright安装
环境:Centos 6.4_x86_64步骤:1、下载 http://www.infobright.org/downloads/ice/infobright-4.0.7-0-x86_64-ice.rpm换到root用户:# rpm -i infobright_version_name.rpm2、激活infobright# /usr/local/infob原创 2013-11-08 20:32:00 · 4103 阅读 · 1 评论 -
centos 启用 mysql
我的centos在安装时就把mysqld装上了,启用到方法很简单:在service中打开mysqld在终端中设置root密码:$ mysqladmin -u root -p password ******回车后会提示输入原始密码,如果是第一次执行该命令,则原始密码为空,直接回车就好了。如果没有安装mysql,则安装:$ yum install mysql原创 2012-03-17 16:59:01 · 1692 阅读 · 0 评论 -
Postgresql学习笔记【3】-pg的进程
pg的服务进程在操作系统中的名字都叫postgres,pg在多用户模式下启动后,用pidof postgres命令可以看到至少6个进程id。但其实,pg的进程结构是:单用户模式下只有1个进程postmaster多用户模式下,有一个postmaster进程,它会启动几个辅助进程,如:SysLogger(负责系统日志)PgStat(负责收集数据的统计信息)AutoVacuum(原创 2013-10-15 12:14:29 · 4376 阅读 · 1 评论 -
postgresql学习笔记【1】-Linux+eclipse+gdb调试postgresql源码
pg内核源码解析课上用的vs调试pg源码,VS用起来确实方便,但是配置调试环境着实有点麻烦。首先得装个windows系统,最好是xp,win7稍微麻烦点;最好使用vs05,08和10也可以,但是比05还麻烦;此外还得装个perl,最好再装上cygwin以及其他一大堆linux上原生的东西。然后才能生成vs的工程,生成工程保不准会遇上一些参数配置问题。关键是pg很多都是跑在linux上的啊,在w原创 2013-09-30 19:46:22 · 3359 阅读 · 4 评论 -
JDBC for rdf3x
分布式RDf查询的项目一步步进展。昨天折腾了一天RDF3x。rdf3x是一个单机的rdf查询引擎https://code.google.com/p/rdf3x/,由德国mpii开发,可以在三元组上建立6个不同的索引,支持基本的sparql语法,使得rdf的查询非常快(当然是单机能够承受的数据量下)。但是我的程序中需要用java连接rdf3x,尝试用一个进程来执行rdf3xquery、获取输原创 2013-04-04 02:51:14 · 2343 阅读 · 1 评论 -
Redis批量导入数据
环境:openstack上的一个8核CPU、16GB内存、110GB磁盘的虚拟机ubuntu12.04 x64 server系统安装redis2.6.7过程:做实验的时候需要把一个2.1亿条的key-value数据导入redis以提供快速的查询。安装、配置、启动redis之后,需要把数据导入到redis中。尝试用jedis写客户端往redis中逐条插入数据的话,速度很慢原创 2013-03-22 02:17:36 · 9117 阅读 · 9 评论 -
提高mysql插入数据的速度
需要在mysql中插入2000万条记录,用insert语句插入速度很有限,每秒钟几百条,放在hadoop集群上跑也是这个速度,可能是数据库的问题了,网上看到sql server和oracle的insert速度也不是很快。比较简单的优化方法如下:1、在一条insert语句中插入多条记录INSERT INTO tablename (field0, field1, ...) VALUES(原创 2012-03-21 08:46:00 · 10468 阅读 · 0 评论 -
查看mysql数据表信息
查看数据表信息,如果直接对表执行sql语句的话,当表很大或者其他客户端正在对表操作时,可能会很慢,比如查看表中的记录条数,使用:SELECT COUNT(*) FROM tableName对于很大的表并且有其他客户端这在对表进行更新时会非常慢,试过100万行的表、20个客户端正在执行insert时,慢到需要3、4分钟才能返回结果。其实可以从mysql的information_s原创 2012-03-21 09:08:09 · 4244 阅读 · 0 评论 -
eclipse安装maven、创建web工程
1、安装mavenhttp://maven.apache.org/download.html下载3.0.4版本tar.gz,并按照该页的安装说明安装。2、安装eclipse maven插件在eclipse for jee中安装maven插件在Window->Preferences->Install/Update->Available Software Sites中添加M原创 2012-05-01 17:23:15 · 5271 阅读 · 3 评论 -
Mozilla Addons 学习笔记(3)
chipboard该API允许调用者和操作系统的剪切板交互,存取其中的内容。你可以设定剪切板中的数据类型。目前支持的类型有文本(text)和html两种。如果没有指定类型,API会自动地检测类型。例如:剪切板中文本的存取:var clipboard = require("clipboard");clipboard.set("Lorem ipsum dolor sit原创 2012-08-22 21:29:05 · 918 阅读 · 0 评论