自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 pentaho套件

有人统计过,在整个数据分析过程里,收集、整理数据的工作大致占全部工作量的90%,建模过程不足10%,可见ETL是数据处理流程中一个非常重要的环节。ETL工程师,在数据仓库类职位中占有很大比例,而且薪水都不差。IT人一下子转型数据分析师可能跳跃度比较大难度高,先转型数据仓库/ETL工程师再择机往更高处走是合理选择之一。在ETL软件中,使用最多的是开源的Kettle,完全免费,功能和性能不弱于data...

2017-04-28 15:52:08 253

原创 linux下文件夹的创建、复制、剪切、重命名、清空和删除命令

在home目录下有wwwroot目录,wwwroot下有sinozzz目录,即/home/wwwroot/sinozzz一、目录创建在/home/wwwroot目录下新建一个sinozzz123的文件夹mkdir /home/wwwroot/sinozzz123二、目录复制1.把/home/wwwroot/sinozzz里面的文件和文件夹等复制到home/wwwroot/si...

2017-04-28 12:54:01 213

原创 git 创建新项目,下载工程,合并和更新工程简单应用记录

以前使用SVN很顺手,现在公司使用git来管理代码,因此学习git的基本使用。一。首先介绍下SVN和git的简单比较:SVN是使用得最多的版本控制管理工具。  1.是一个集中式的版本管理工具。所有的文件都集中在一个服务器上,用户都是通过这个服务器进行更新,一旦服务器发生故障,那么则无法协 同工作。  2.SVN按文件存储。    所有的资源控制系统都是把文件的元信息隐藏在一...

2017-04-27 19:48:38 134

原创 MAC地址定位技术的大数据警用应用

随着电脑终端及移动设备的普及,信息化时代的舆论走向管理及信息安防大数据等新时期的需求开始凸显重要性以及加强管理的必要性。 在传统方式上的电脑定位大致是通过技术手段获取到电脑所在网络出口IP地址,然后通过运营商查询相关IP的登记属性。这种方式步骤繁琐,流程冗长。本文是用于探讨新信息时代的大数据管理方式模型,以提高PC、笔记本等电脑终端设备定位的查询效率。 移动终端的普...

2017-04-27 14:35:43 6758

原创 解决Maven项目pom.xml文件报xxx\target\classes\(系统找不到指定的路径。)问题

标签:最近自己在公司项目修改一些代码以后,出现如题的错误,后来各种Google等,最终找到了解决办法。错误环境:Tomcat7 + Eclipse + Maven + Spring + SpringMvc + Mybatis错误描述:  错误解决步骤:  1.找到eclipse的project菜单选择clean...选项        2.选择Clean all ...

2017-04-27 12:25:33 1377

原创 ramdisk一般指虚拟内存盘

ramdisk一般指虚拟内存盘 虚拟内存盘是通过软件将一部分内存(RAM)模拟为硬盘来使用的一种技术。相对于直接的硬盘文件访问来说,这种技术可以极大的提高在其上进行的文件访问的速度。但是RAM的易失性也意味着当关闭电源后这部分数据将会丢失。但是在一般情况下,传递到RAM盘上的数据都是在硬盘或别处永久贮存的文件的一个拷贝。经由适当的配置,可以实现当系统重启后重新建立虚拟盘。虚拟...

2017-04-25 19:15:42 527

原创 Elasticsearch集群和索引常用命令

ES通过设置【节点的名字】和【集群的名字】,就能自动的组织相同集群名字的节点加入到集群中,并使很多的技术对用户透明化。如果用户想要管理查看集群的状态,可以通过一些REST API来实现。参考文档:http://www.cnblogs.com/xing901022/p/4957543.htmlREST API用途ES提供了很多全面的API,大致可以分成如下几种:1 检查集群、...

2017-04-25 19:04:01 102

原创 Elasticsearch的配置文件

Elasticsearch的配置文件在config文件夹下,其中有elasticsearch.yml、logging.yml两个配置文件,其中elasticsearch.yml是用来配置Elasticsearch服务的,logging.yml是用来配置日志文件的。下面是elasticsearch.yml配置文件的中文说明:# ------------------------------...

2017-04-25 18:53:10 101

原创 elasticsearch的使用问题

通过TransportClient这个接口,我们可以不启动节点就可以和es集群进行通信,它需要指定es集群中其中一台或多台机的ip地址和端口,例子如下: [java] view plain copy  print?Client client = new TransportClient()                .addTransportAddr...

2017-04-25 18:39:35 573

原创 Eclipse中添加文档注释快捷键

例如:/**  * @param    * @return  */快捷键为:ALT + SHIFT +J想更换为其他的快捷键:Window-->Preferences-->General-->Keys;找到"add javadoc comment"更改自己喜欢的快捷键。另外如果觉得注释也不爽时也可以改改,修改的方法有两种:1.直接在eclipse给的...

2017-04-25 10:31:04 99

原创 Maven多模块工程的例子

在Eclipse中创建Maven多模块工程的例子更多0 如果,你需要创建多个项目,项目之间即独立又有关系,那么创建一个Maven多模块项目是个非常好的选择,也非常cool!怎么在Eclipse里面创建多模块工程,以及需要注意哪些地方,我在这里做个简单的介绍。一、准备若想在Eclipse里面做这些的话,那么在做这一切前,请确认你是否已经在eclipse里面安装了...

2017-04-24 16:21:57 163

原创 spass和madlab那个好

SPSS的全称是:Statistical Program for Social Sciences,即社会科学统计程序,最优秀的统计分析软件之一。该软件是公认的最优秀的统计分析软件包之一。SPSS原是为大型计算机开发的,其版本为SPSSx.Spss是著名的综合性统计软件,SPSS软件面向行业应用人员,软件设计突出统计方法的成熟、实用、易用性、界面易操作性及与文字处理软件等的交互性上MATLAB和...

2017-04-24 16:14:00 560

原创 C1000k 新思路:用户态 TCP/IP 协议栈

C1000k 新思路:用户态 TCP/IP 协议栈现在的服务器支撑上百万个并发 TCP 连接已经不是新闻(余锋2010年的演讲,ideawu 的 iComet 开源项目,WhatsApp 做到了 2.5M)。实现 C1000k 的常规做法是调整内核参数,提高文件数,降低每个连接的内存消耗(参考 ideawu 的博客)。在今年的 BSDCan2014 会议上, Patrick Kel...

2017-04-24 16:13:51 114

原创 基于Nginx实现10万+并发,你应该做的Linux内核优化

由于默认的linux内核参数考虑的是最通用场景,这明显不符合用于支持高并发访问的Web服务器的定义,所以需要修改Linux内核参数,是的Nginx可以拥有更高的性能;在优化内核时,可以做的事情很多,不过,我们通常会根据业务特点来进行调整,当Nginx作为静态web内容服务器、反向代理或者提供压缩服务器的服务器时,期内核参数的调整都是不同的,这里针对最通用的、使Nginx支持更多并发请求的TCP...

2017-04-24 16:13:42 120

原创 Webstorm常用快捷键

查找/代替快捷键说明ctrl+shift+N通过文件名快速查找工程内的文件(必记)ctrl+shift+alt+N通过一个字符快速查找位置(必记)ctrl+F在文件内快速查找代码F3查找下一个shift+F3查找上一个ctrl+R文件内代码替换ctrl+shift+R指定...

2017-04-24 16:13:35 82

原创 Impala:新一代开源大数据分析引擎

大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础,之后的Hbase,Hive,Pig等系统如雨后春笋般的加入了Hadoop的生态系统中。今天我们就来谈谈Hadoop系统中的一个新成员 – Impala。 Impala架构分析Impala是Cloudera公司...

2017-04-22 10:48:17 297 1

原创 Spring相关

我是一个Java开发者,之前知道Spring属于这个公司,就对这个公司很感兴趣。最近学RabbitMQ,又了解了一下这个公司,深吸一口气啊。。Java后台开发使用最多的一个框架——Spring,以及Spring衍生出的一堆框架,是这个公司的,这些框架的开发者,大部分被这个公司雇佣。Spring这个框架,基本上做Java Web开发的人,不管水平怎么样,都逃不开。大家经常讨论的秒杀方案,后台用的R...

2017-04-20 16:10:03 89

原创 HSQLDB 是什么

mysql,hsql,sql server首先,都是 数据库服务器软件, 都支持 标准的 SQL 语句mysqlMySQL名字的来历MySQL是一个小型关系型数据库管理系统,开发者为瑞典MySQLAB公司,在2008年1月16号被Sun公司收购。MySQL被广泛地应用在Internet上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体...

2017-04-20 15:29:39 332

原创 MAC地址搜集

 为什么要收集手机的MAC地址,而不去收集一些更加有用的信息,比如号码、应用、位置呢?不是因为MAC地址比这些信息更加有用,而是因为,那些更加有用的信息,我们无法做到大范围地、实时性地收集。 举个简单的例子,我开发了一个手机的APP,自然可以将相关的信息都收集过来,这时候我干嘛需要关注这个手机MAC地址。 但是,你无法保证大部分人都装了APP, 也无法保证这个APP时刻都在运行,在你需要的时...

2017-04-20 14:43:40 682

原创 UI设计原则

大家看过这么多交互科技分享的UI设计关于色彩搭配的方法,不知道是否有一些心得体会了?实际上,除了颜色与颜色之间的搭配,在颜色的大小位置,颜色运用等方面,都有各种使用的原则,在遵守了这些原则之后,才能做出更好的UI设计,也才能获得更好的用户体验。接下来,交互科技就和大家说说UI设计中关于色彩搭配的三项基本原则吧。原则一:色的大小位置UI设计中用大色块烘托气氛和主题比较稳定,而UI设计中...

2017-04-19 16:46:53 308

原创 商业智能BI的三个层次

经过几年的积累,大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process,在线事务处理),指的就是系统运行了一段时间以后,必然帮助企事业单位收集大量的历史数据。但是,在数据库中分散、独立存在的大量数据...

2017-04-19 12:43:49 381

原创 Weka是什么

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也...

2017-04-19 12:41:44 249

原创 RapidMiner是什么

RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。应用介绍编辑数据挖掘过程简单,强大和直观可以用简单脚本语言自动进行大规模进程图形用户界面的互动原型Java API(应用编程接口)RapidMiner具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修...

2017-04-19 12:29:55 867

原创 ETL哪个开源软件好

1 随数据库环境的不同可能会使用不同的工具,不过这一点并没有限制,大多工具都支持不同的数据环境。有时可以是几种工具并用,主辅结合;oracle下可选odi,GoldenGate;sqldeveloper亦可作为加载数据的工具;oracle warehouse则使用owb;ibm下可选vw(visual warehouse);mysql下可选kettle,GoldenGate;...

2017-04-18 12:45:43 273

原创 ETL的经验总结

ETL的考虑      做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升到了一定的理论高度,和原来小打小闹的工具使用不同了。究竟什么不同,从名字上就可...

2017-04-18 12:39:13 536

原创 为什么测试和开发不和

让我们思考几个常见的问题:软件测试的目的是什么?开发人员能否构建出没有Bug的完美软件?测人人员和开发人员是什么关系?软件测试能否保证软件质量?先闭目冥想五分钟吧,然后可以尝试着回答上面的问题。计算机先驱 Maurice Wikes 回忆起 1949 年他在英国剑桥工作的情形,在拖着打孔纸带上楼给雏形计算机 EDASC 装载程序时,他看到了自己的未来:我强烈的意...

2017-04-18 12:27:56 461

原创 如何提高你代码质量

人跟人的能力千差万别,所以写出来的代码质量,肯定是不同的。有的人,写一个小逻辑,可能需要100行,而有的人,可能仅仅需要10行。代码永远会有Bug,在这方面没有最好只有更好。模块化与面向对象是实现高效无错代码的方法。高效无错代码需要思想与实践的不断反复。如何做到代码高效无错,提高代码质量的方法有哪些?又有哪些经验和技巧呢?一、代码质量 软件是交付给用户,并由用户体验的产品;代码则是...

2017-04-18 12:27:45 78

原创 MySQL集群搭建详解

MySQL Cluster 是MySQL 适合于分布式计算环境的高实用、可拓展、高性能、高冗余版本,其研发设计的初衷就是要满足许多行业里的最严酷应用要求,这些应用中经常要求数据库运行的可靠性要达到99.999%。MySQL Cluster允许在无共享的系统中部署“内存中”数据库集群,通过无共享体系结构,系统能够使用廉价的硬件,而且对软硬件无特殊要求。此外,由于每个组件有自己的内存和磁盘,不存在单...

2017-04-18 12:22:49 67

原创 开发自测注意事项

检查项检查项描述效果检查做出来的效果和功能是否和需求一致(包括不变的文字说明)页面链接检查每个链接是否有相应的页面,页面之间切换是否流畅,正确功能检查添加,修改,保存,修改,删除,查询等功能是否能正确使用必填项检查a.必填项在没有填写时程序是否做了处理b.必填项在没有填写时程序是否做了友好的提示c.必填项...

2017-04-17 21:23:19 713

原创 产品开发流程

产品开发是一个将产品设计落实、实现的过程,需要整个研发团队合作来完成,在程序实现上必须要求逻辑严密,不然会出现产品经理没有考虑周全的地方,所以团队合作是开发阶段中最重要的。第一步 根据产品需求制定产品的系统架构在开发产品的过程中,合理的架构和系统设计可以帮助我们高效的完成开发开发架构选择:使用何种架构构建产品的系统数据存储架构选择:使用何种方案进行产品的数据存储...

2017-04-17 20:09:11 638

原创 PageRank算法--从原理到实现

本文将介绍PageRank算法的相关内容,具体如下:1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法的简单实现 5.2 MapReduce实现 6.PageRank算法的缺点 7.写在最后 参考资料1. 算法来源这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是 分类目录[^ref_1...

2017-04-17 19:07:19 328

原创 微信开发常识

微信自带一个浏览器,基于webikit,代号为X5 浏览器兼容性解决之道前言      浏览器兼容性一直是前端开发中不得不面对的一个问题。而最突出的就是IE。对绝大多数公司来说,兼容IE6的性价比已经很低,而IE7则几乎已经绝迹。所以,常见的兼容性下限是IE8。这也正是Angular1.2x的兼容性目标,Angular团队声明:Angular的持续集成服务器会在IE8下运行所有...

2017-04-17 13:38:08 101

原创 行业常用的API

1.apistore2.聚合API

2017-04-17 11:50:52 511

原创 linux查看磁盘io的几种方法

怎样才能快速的定位到并发高是由于磁盘io开销大呢?可以通过三种方式:  第一种:用 top 命令 中的cpu 信息观察  Top可以看到的cpu信息有:  Tasks: 29 total, 1 running, 28 sleeping, 0 stopped, 0 zombie  Cpu(s): 0.3% us, 1.0% sy, 0.0% ni, 98.7% id, 0.0% w...

2017-04-16 14:37:09 168

原创 zabbix是什么

zabbix(音同 zæbix)是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。zabbix由2部分构成,zabbix server与可选组件zabbix agent。zabbix server可以通过SNMP,zabbix ag...

2017-04-15 13:56:11 1075

原创 Cygwin是什么

Cygwin是一个在windows平台上运行的类UNIX模拟环境,是cygnus solutions公司开发的自由软件(该公司开发的著名工具还有eCos,不过现已被Redhat收购)。它对于学习UNIX/Linux操作环境,或者从UNIX到Windows的应用程序移植,或者进行某些特殊的开发工作,尤其是使用GNU工具集在Windows上进行嵌入式系统开发,非常有用。随着嵌入式系统开发在国内日渐流...

2017-04-15 13:42:36 688

原创 gp数据库报了order by的时候报了这个错

Canceling query because of high VMEM usage. Used: 3659MB, available 819MB, red zone: 7372MB (runaway_cleaner.c:135)我在执行查询一个大概10亿条记录表order by的时候报了这个错,有什么好的办法解决? 1.一般是:一般是拆分大sql,利用中间临时表把 seq_id 这...

2017-04-13 18:18:00 5232

原创 平时知识点记录20170413

 1.$.getJSON('../../../static/data/d3-module.json',上面这个json文件一定在本地,可以再浏览器中输入XX/XX/static/data/d3-module.json  就能显示出来 

2017-04-13 13:41:53 112

原创 bat命令中 rem 和 :: 的区别

bat文件是dos下的批处理文件。批处理文件是无格式的文本文件,它包含一条或多条命令。它的文件扩展名为 .bat 或 .cmd。在命令提示下键入批处理文件的名称,或者双击该批处理文件,系统就会调用cmd.exe按照该文件中各个命令出现的顺序来逐个运行它们。使用批处理文件(也被称为批处理程序或脚本),可以简化日常或重复性任务。 bat命令中rem和:: 的区别rem和::都起到注释的...

2017-04-12 13:48:30 1517

原创 tomcat,Jboss,weblogic区别与比较

一、tomcat Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,它是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。由于有了Sun 的参与和支持,最新的Servlet 和JSP 规范总是能在Tomcat 中得到体现,Tomcat 5 支持最新...

2017-04-12 13:32:30 84

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除