- 博客(111)
- 资源 (31)
- 收藏
- 关注
原创 ECLIPSE、INTELLIJ IDEA格式化统一ECLIPSE CODE FORMATTER
Eclipse、Intellij idea格式化结果不一样,导致长时间都是用两个开发工具,idea开发eclipse进行格式化。但是现在这个问题可以解决了。使用Eclipse Code Formatter。具体的插件地址:http://plugins.jetbrains.com/plugin/6546?pr=idea&offset=15&max=15#comments_panInt
2015-05-14 13:47:31 36743 2
原创 nilsimsa的大概算法
1. 有一个5个字节的window,沿着文本向右滑动,每次滑动一个字节2. 每一个window里面的5个字节,分别可以N个组成3元组。 例如igram,可以分为:igr iga igm iga igm gra grm gam ram3. 每一个三元组通过一个hash函数,算出来一个结果,设为i ,i的区间是(0,256), 最下面有一个数组,也是共256位,刚好对应存放。 例如igr,假
2015-02-09 19:24:28 1725
原创 Hive基本命令整理
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table n
2015-02-09 19:22:14 1304
原创 Hive的访问接口
Hive提供了三种客户端访问接口:1)Hive CLI(Hive Command Line,Hive命令行),客户端可以直接在命令行模式下进行操作。2)hwi(Hive Web Interface,Hive Web接口),Hive提供了更直观的Web界面3)hiveserver,Hive提供了Thrift服务,Thrift客户端目前支持C++/Java/PHP/Python
2015-02-09 19:21:03 13828
原创 jstat分析JVM内存
出处:http://liulinxia02.blog.163.com/blog/static/268687720117251501253/Jstat 是JDK自带的一个轻量级小工具。全称“Java Virtual Machine statistics monitoring tool”,它位于java的bin目录下,主要利用JVM内建的指令对Java应用程序的资源和性能进行实时的命令行的
2015-02-09 19:16:41 25349
原创 linux系统下实现mysql热备份详细步骤(mysql主从复制)
主从的作用:1.可以当做一种备份方式2.用来实现读写分离,缓解一个数据库的压力 MySQL主从备份原理:Mysql的主从复制至少是需要两个Mysql的服务,当然Mysql的服务是可以分布在不同的服务器上,也可以在一台服务器上启动多个服务。如果想配置成为同一台上的话,注意安装的时候,选择两个不同的prefix=路径,同时开启服务器的时候,端口不能相同。
2015-01-19 10:36:20 2505
原创 社会化海量数据采集爬虫框架搭建
原文地址: http://www.lanceyan.com/tech/arch/snscrawler.html随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一
2015-01-16 15:50:30 1444
原创 hive导出查询文件到本地文件的2种办法
通过HQL语句可以将hive 中表的数据生成到指定的目录。有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的)方法有如下2种: 1.INSERT OVERWRITE LOCAL DIRECTORY将结果输出到指定的目录:生成的文件数 和redurcer的数目的一样的在hive下面执行INSERT OVERWR
2015-01-07 10:42:49 3736
原创 hive bucket 桶
对于每一个表(table)或者分区,Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处,比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。hive中table可以拆分成
2015-01-07 10:42:15 2609
原创 Solr\Lucene优劣势分析
最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch、solr的出现,lucene变得更加热。Nutch、Solr的发展,极大推动了lucene的升级。对于一些接触过搜索,使用过lucene、solr的人来说,一般都会感觉lucene、solr很牛逼。我个人也认为solr、lucene确实非常NB,他涵盖了信息检索的几乎全部基础知识和非常高
2015-01-07 10:37:22 2972
原创 android 三种网络通信接口及各个接口的代码示例
第一部分 Android网络基础 Android平台浏览器采用了WeBKit引擎,这款名为Chorme Lite的Web浏览器拥有强大扩展特性,每个开发者都以为编写自己的插件,使得浏览器的功能更加完善。 目前Android平台有3种网络接口。 第一种 java.net.*(标准java接口) 此接口提供与联网有关的类,包括流和数据包套接字、Internet协议、常见H
2015-01-07 10:31:24 12746
原创 android的logcat详细用法
Android日志系统提供了记录和查看系统调试信息的功能。日志都是从各种软件和一些系统的缓冲区中记录下来的,缓冲区可以通过 logcat 命 令来查看和使用.使用logcat命令你可以用 logcat 命令来查看系统日志缓冲区的内容:[adb] logcat [] ... [] ...请查看Listing of logcat Command Options ,它对l
2015-01-06 13:01:20 3618
原创 Linux scp命令的应用
Linux scp命令用于Linux之间复制文件和目录,具体如何使用这里好好介绍一下,从本地复制到远程、从远程复制到本地是两种使用方式。这里有具体举例:==================Linux scp 命令==================scp 可以在 2个 linux 主机间复制文件;命令基本格式:scp [可选参数] file_sour
2015-01-06 12:59:27 1009
原创 程序员要知道的英语词汇
原文章地址: http://sxt.cn/u/324/blog/1041本文选自《Java程序员,上班那点事儿》 有时候如果应聘到了一个有外资背景的公司或者这个公司的很多人都有海外或外资工作背景时,你也许还会用到一些日常工作交流时候的词汇。 比如我们看一下某主管开会时的发言:小王,请你尽快 “Push”一下这件事,按照前期咱们定下来的“Plan”来“
2015-01-05 12:04:50 1305
原创 网络爬虫的乱码处理
原文地址:http://www.cnblogs.com/agileblog/p/3615250.html关于爬虫乱码有很多群友的各式各样的问题,下边简单总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。 网络爬虫,有两种选择,一是选择nutch、hetriex,二是
2015-01-05 11:56:26 25019 3
原创 JVM的重排序
重排序通常是编译器或运行时环境为了优化程序性能而采取的对指令进行重新排序执行的一种手段。重排序分为两类:编译期重排序和运行期重排序,分别对应编译时和运行时环境。在并发程序中,程序员会特别关注不同进程或线程之间的数据同步,特别是多个线程同时修改同一变量时,必须采取可靠的同步或其它措施保障数据被正确地修改,这里的一条重要原则是:不要假设指令执行的顺序,你无法预知不同线程之间的指令会以何种顺序执
2015-01-05 11:54:14 953
原创 性能测试知多少---吞吐量
我们每天的生活中都在用水用电,我只会关心自己的水管是否有水,水压是否稳定,如果我们把水龙头拧到最大,还是一滴一滴的流水。那我们就要愤怒了,直接找房东问明情况。我们从来没想过去找自来水公司。我们每天都会上网,网速很慢,看个电影很卡,需要等很久才缓冲一个画面,我们打开网页很慢,IE状态条一直50%,那我们就要愤怒了,直接找电信、网通公司问明情况。 我想说以上的情况是正常的,如果你在优酷上看视
2015-01-05 11:52:37 1226
原创 Tomcat 端口变更失效的问题的解决
今天在服务器上部署了两个Tomcat。于是将其中一个的server.xml中的8080端口改成了8081。启动tomcat,端口居然还是8080。郁闷。习惯性的Google了下。发现别人也遇见了同样的问题:tomcat 修改端口无效 [问题点数:40分,无满意结帖,结帖人shenglan8] http://bbs.csdn.net/topics/360265129后来,在终端下echo
2014-12-08 14:36:54 7971 1
原创 45 个非常有用的 Oracle 查询语句
日期/时间 相关查询获取当前月份的第一天运行这个命令能快速返回当前月份的第一天。你可以用任何的日期值替换 “SYSDATE”来指定查询的日期。12SELECT TRUNC (SYSDATE, 'MONTH') "First day of current month" FROM DUAL;
2014-12-01 20:31:06 1061
原创 Spring中的定时调度(Scheduling)和线程池(Thread Pooling)
简介Spring包含了对定时调度服务的内置支持类。当前,Spring支持从JDK1.3开始内置的Timer类和Quartz Scheduler(http://www.opensymphony.com/quartz/)。二者都可以通过FactoryBean,分别指向Timer或Trigger实例的引用进行配置。更进一步,有个对Quartz Scheduler和Timer都有效的工具类
2014-11-14 14:34:51 25658
原创 apache服务器全局配置详解
服务器标识相关指令:ServerNameServerAdminServerSignatureServerTokensUseCanonicalNameUseCanonicalPhysicalPortServerAdmin和ServerTokens指令控制有关服务器的哪些信息将出现在服务器生成的文档中(如错误消息)。ServerTokens指令设置服务器HTTP响应头字
2014-11-13 14:09:51 9355
原创 Java性能小技巧
局部决定整体。一个应用的整体性能取决于每个组件的性能。下面是一些帮助你提高应用性能的Java编程技巧:编程技巧原因及策略避免重复创建对象为什么:更少的对象会需要更少的垃圾回收使用的空间越少,应用的性能越好怎么做:重复利用一个对象,而不是在每次需要的时候都去创建一个功能一样的对象(这样做)
2014-11-10 13:17:41 1272 1
原创 如何估算内存消耗
Performance Zone是由New Relic和AppDynamics支持的。New Relic和AppDynamics作为APM领域的领导者,有着备受瞩目的用户并为用户消减大量成本。这个故事至少可以追溯到十年前,当我第一次接触到PHB,遇到了这样一个问题——“为了产品部署我们应该购买多大的服务器”。这个崭新的系统上线已经九个月了。显然公司已经承诺提供整套的解决方案,包括硬件。
2014-11-10 13:16:34 2683
原创 JVM的重排序
重排序通常是编译器或运行时环境为了优化程序性能而采取的对指令进行重新排序执行的一种手段。重排序分为两类:编译期重排序和运行期重排序,分别对应编译时和运行时环境。在并发程序中,程序员会特别关注不同进程或线程之间的数据同步,特别是多个线程同时修改同一变量时,必须采取可靠的同步或其它措施保障数据被正确地修改,这里的一条重要原则是:不要假设指令执行的顺序,你无法预知不同线程之间的指令会以何种顺序执
2014-11-10 13:16:23 1110 1
原创 SQL/NoSQL两大阵营激辩:谁更适合大数据
企业在着手推动大数据项目的过程中,经常会遇到这样一个关键性的决策难题——到底该使用哪种数据库方案?经过综合考量,最终的选项往往只剩下 SQL 与 NoSQL 两种。SQL 具有骄人的业绩以及庞大的安装基础,但 NoSQL 却能够带来可观的收益并同样拥有不少支持者。在今天的辩论当中,我们将一同听听两大阵营中各位专家的意见。Network World 网站主编 John Dix 专门组织了此次
2014-11-10 13:12:51 1170
原创 Linux Namespaces机制
Linux Namespaces机制提供一种资源隔离方案。PID,IPC,Network等系统资源不再是全局性的,而是属于特定的Namespace。每个Namespace里面的资源对其他Namespace都是透明的。要创建新的Namespace,只需要在调用clone时指定相应的flag。Linux Namespaces机制为实现基于容器的虚拟化技术提供了很好的基础,LXC(Linux conta
2014-11-06 10:35:18 25079 4
原创 断开网线黑客也能盗走你的数据
一旦电脑感染病毒或者木马,一般人首先想到“先断开网线”,避免机密数据通过上网通道被窃走。不过根据安全专家的研究,即使是断开网线的“PC孤岛”,黑客也能利用电磁波等技术,“隔空”盗走数据。以色列Ben-Gurion大学的安全研究人员,研究并且实现了利用FM调频无线电波盗取电脑数据的办法。他们成功将电脑显示器作为传出被盗数据的出口通道,而具有FM接受功能的手机,则充当了接收方。
2014-11-05 13:11:40 1625
转载 如何勾引马云、马化腾花钱买你公司?
在互联网领域创业,有句调侃要么被BAT收购,要么老死众生。把公司卖给BAT,尤其是的当下拼命收购的阿里腾讯,几乎成了很多互联网创业公司的命数。那么,对那些渴望被投资或被买走的创业者,究竟怎样才能引起马云马化腾的注意,让他们”翻你的牌子”呢? 这听起来多少有点悲哀,但九哥还是来帮你梳理一二。 1、做到行业第一 很多时候你要做到第一才能引起巨头的注意,第二有时只是退而求其
2014-11-05 09:13:52 1511
原创 假冒谷歌爬虫成为第三大 DDoS 攻击工具
在安全牛之前发布的文章《Prolexic发布2014年第一季度全球DDoS攻击报告》中,我们了解到采用“反射放大”技术发起的攻击流量比上一季度增加了39%,同时攻击者也在不断发掘利用其他一些互联网基础服务来发动DDoS攻击,例如今年3月安全公司Sucuri发现黑客利用超过16.2万WordPress网站的Pingback功能进行大规模DDoS放大攻击。近日,新的研究表明,假冒谷歌爬虫已经成
2014-11-05 09:13:44 2684
原创 为什么中国4G不能只有TD-LTE
摘要 对TD-LTE的特殊支持源于“TD-LTE是我国的自主4G国际标准”的认定,但其实这个认定是错误的。如果由这个错误认定而形成国家产业发展的决策,就将会对我国的通信产业发展产生极大的伤害。一、TD-LTE与中国4G的制式之争当前,中国的4G发展陷入了一个所谓制式之争的怪局,LTE标准中的TDD模式LTE TDD,即所谓的TD-LTE,获得了政府优先发放牌照的特别扶持,而
2014-11-05 09:11:42 1859
原创 关于云计算基础架构IaaS层的几点看法
真实的云计算什么样?云计算对普通用户来说,总是一个云里雾里的话题。本文从最基础的概念开始科普,说明了四个常见的错误理解,和作者的四个猜想。IaaS(Infrastructure as a Service),指基础设施即服务,消费者通过Internet可 以从完善的计算机基础设施获得服务。基于Internet的服务(如存储和数据库)是IaaS的一部分。Internet上其他类型的服务
2014-10-31 17:34:19 9505
原创 云服务三大部署模式-私有云、公有云、混合云谁才是云计算未来的主流
近两年来,云计算产业发展迅猛,被称为ICT领域下一个金矿。几乎ICT产业内的所有参与者都开始涉足云计算领域。运营商、IT厂商、通信厂商、IT服务提供商、电信服务提供商、软件厂商、系统厂商……纷纷出台云计算定战略。近来,围绕云计算的并购频出,云计算产业达到了空前的热度。 云计算是一种全新共享基础架构的方法,是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算
2014-10-31 11:53:58 20628
原创 使用python获取CPU和内存信息的思路与实现(linux系统)
linux里一切皆为文件,在linux/unix的根目录下,有个/proc目录,这个/proc 是一种内核和内核模块用来向进程(process)发送信息的机制(所以叫做“/proc”),这个伪文件系统允许与内核内部数据结构交互,获取有关进程的有用信息,在运行中(on the fly)改变设置(通过改变内核参数)。与其他文件系统不同,/proc 存在于内存而不是硬盘中。proc 文件系统提供的信息如
2014-10-31 09:25:32 12528
原创 hive优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几
2014-10-31 09:21:58 30553 5
原创 redis事物
本文档翻译自: http://redis.io/topics/transactions 。MULTI 、 EXEC 、 DISCARD 和 WATCH 是 Redis 事务的基础。事务可以一次执行多个命令, 并且带有以下两个重要的保证:事务是一个单独的隔离操作:事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中,不会被其他客户端发送来的命令请求所打断。
2014-10-30 14:55:43 7536 1
原创 工厂模式
一、工厂模式主要是为创建对象提供过渡接口,以便将创建对象的具体过程屏蔽隔离起来,达到提高灵活性的目的。 工厂模式在《Java与模式》中分为三类:1)简单工厂模式(Simple Factory):不利于产生系列产品;2)工厂方法模式(Factory Method):又称为多形性工厂;3)抽象工厂模式(Abstract Factory):又称为工具箱,产生产品族,但不利于产
2014-10-30 14:51:57 1020
原创 单例模式
所谓单例模式,简单来说,就是在整个应用中保证只有一个类的实例存在。就像是Java Web中的application,也就是提供了一个全局变量,用处相当广泛,比如保存全局数据,实现全局性的操作等。 1. 最简单的实现 首先,能够想到的最简单的实现是,把类的构造函数写成private的,从而保证别的类不能实例化此类,然后在类中提供一个静态的实例并能够返回给使用者。这样,
2014-10-30 14:51:42 970
原创 java 利用 poi 生成 Excel文件的例子
在用java 写数据库应用的时候, 通常会生成各种报表,而这些报表可能会被导出为各种格式的文件,比如Excel文档,pdf 文档等等. 今天先做了一个生成Excel 文档的例子,主要解决以下问题:1. 生成 Excel 文档.2. 保护生成Excel文档,设置密码访问.3. 自动对生成的Excel 文档第一行标题栏设置成filter 过滤形式, 方便用户使用.用 apache
2014-10-30 10:12:40 11581 1
原创 Python yield 使用浅析
如何生成斐波那契數列斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个和第二个数外,任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前 N 个数是一个非常简单的问题,许多初学者都可以轻易写出如下函数:清单 1. 简单输出斐波那契數列前 N 个数 def fab(max): n, a, b = 0, 0, 1 while n
2014-10-30 10:07:57 33751 1
转载 我们正在失去对个人数据的主权
导读:当所有生活琐事变得网络化和智能化,身边的一切都变得聪明起来。德意志银行也选择用数据八爪鱼来形象地说明物联网的特性。©图片所有权为德意志银行)在对于数字化未来的研究报告中,德意志银行警告企业不要低估公民们对大数据的不信任。“对于大数据的每一个正面的例子同样有一个让人可想而知的恐慌局面与之对应。“该研究的作者,托马斯 福. 戴普(Thommas F. DAPP),在接受法兰克
2014-10-23 17:00:21 1065
深入分析java web技术内幕
2018-07-19
Visual Source Safe(VSS)使用介绍
2012-03-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人