BigData&Cloud
文章平均质量分 77
textboy
专注于技术与管理并行发展
展开
-
虚拟浏览器(WebClient)应用简单例子
WebClient 是一个类似虚拟浏览器的网页抓取包,一个主要特点是适合动态页面的抓取,如Javascript动态生成的网页(Jsoup好像就做不了了)。首先要引入包,这东东包比较散,要引入一大堆的包,如下:以下是一个简单的应用例子:package j2seTest2;import java.net.URL;import com.gargoyleso原创 2015-04-01 16:13:18 · 2687 阅读 · 0 评论 -
kibana做图表无法选取需要选的字段
http://www.07net01.com/2015/12/1069635.htmlkibana做图表无法选取需要选的字段,即通过term的方式过滤选择某一个field时发现列表里无此选项。 再去discover里看,发现此字段前面带有问号,点击后提示这个字段未做索引,不能用于visualize和discover的搜索。思考:从源头查起转载 2016-02-11 11:17:17 · 5924 阅读 · 0 评论 -
Splunk setup guide
别称: google for IT口号:Take the sh out of IT# 下载http://www.splunk.com/en_us/download/splunk-light.html# 解压unzip splunklight-6.3.2-aaff59bb082c-Linux-x86_64.tgzmv splunklight-6.3.2-aaff59b原创 2016-02-13 23:05:10 · 1095 阅读 · 0 评论 -
hadoop运行任务
1、wordCountJava LibJava sourceimport java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.h原创 2016-03-22 18:20:06 · 1019 阅读 · 0 评论 -
hive性能优化
数据倾斜数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。表现:任务进度长时间维持在99%(或100%),查看任务监控页原创 2016-03-21 15:56:06 · 1577 阅读 · 0 评论 -
hadoop常见问题处理
Q: hadoop fs -ls /log: FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool (Datanode Uuid unassigned) service to localhost/127.0.0.1:9000. Exiting. java.io原创 2016-03-22 17:42:20 · 928 阅读 · 0 评论 -
Spark运行任务
1. 启动hadoopsh start-dfs.shsh start-yarn.sh2. 启动sparkcd /appl/spark-1.4.0/sbin/start-all.sh3. 准备数据hadoop fs -put /mk/test/kmeans_data.txt /test/4. 编写程序包Javaimport org.ap原创 2016-03-29 09:58:14 · 670 阅读 · 0 评论 -
Kafka的配置要点
Consumer负载低的情况下可以每个线程消费多个partition。但负载高的情况下,Consumer 线程数最好和Partition数量保持一致。见:http://www.open-open.com/lib/view/open1434551761926.html - 四. consumer和partitionPartition1天有 1亿行可以分8个分区,如果每天几十万行就转载 2016-04-15 14:49:15 · 483 阅读 · 0 评论 -
Java - zookeeper 服务注册发现
一、zookeeper 服务注册发现模型流程:1)注册,2)发现:监听、负载均衡、故障检测、变更通知,3)调用。From http://blog.cloudera.com/blog/2014/03/zookeeper-resilience-at-pinterest/From http://www.techweb.com.cn/network/hardware/2原创 2016-04-22 18:37:10 · 13252 阅读 · 0 评论 -
ZooKeeper 安装、配置
单机安装、配置: 安装非常简单,只要获取到 Zookeeper 的压缩包并解压到某个目录如:/home/frank/ZooKeeperInstall/zookeeper-3.3.3下。 配置文件存放在/conf/目录下,将zoo_sample.cfd文件名称改为zoo.cfg, 缺省的配置内容如下: # The number of millisecond转载 2016-04-15 18:39:24 · 497 阅读 · 0 评论 -
curl operate elasticsearch
系统自带变量名(如_index、_source){"_index":"dept","_type":"employee","_id":"1","_version":1,"_shards":{"total":2,"successful":1,"failed":0},"created":true}{ "took" : 5, "timed_out" : false, "_shar原创 2016-02-05 15:13:57 · 699 阅读 · 0 评论 -
hive安装 (hive1.2.1+hadoop2.7+mysql)
1. 下载解压cd /mk/softtar -xvzf apache-hive-1.2.1-bin.tar.gz -C /appl/cd /applmv apache-hive-1.2.1-bin hive-1.2.12. 配置环境变量vi /etc/profileexport HIVE_HOME=/appl/hive-1.2.1export PATH=$PATH:$HIVE原创 2016-08-29 18:11:55 · 3217 阅读 · 0 评论 -
配置spark令其支持hive
确保scala版本Spark1.4搭配Scala 2.10Spark1.6搭配Scala 2.10Spark2.0搭配Scala 2.11查看libHive需要三个jar包,分别是datanucleus-api-jdo-3.2.6.jar、datanucleus-core-3.2.10.jar、datanucleus-rdbms-3.2.9.jar,如果已经有了就不需要重新原创 2016-08-31 11:17:04 · 2896 阅读 · 0 评论 -
日志分析方法概述
注:写得有点乱,但目前市面上这方面内容的确不多,mark一下~http://blog.csdn.net/pkueecser/article/details/9569251=============日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方转载 2016-08-22 11:31:24 · 28964 阅读 · 0 评论 -
实时流处理Storm、Spark Streaming、Samza、Flink孰优孰劣
From http://www.dataguru.cn/article-9532-1.html分布式流处理需求日益增加,包括支付交易、社交网络、物联网(IOT)、系统监控等。业界对流处理已经有几种适用的框架来解决,下面我们来比较各流处理框架的相同点以及区别。分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算,转载 2016-09-23 15:42:12 · 13027 阅读 · 0 评论 -
SpringCloud分布式开发五大神兽
SpringCloud分布式开发五大神兽服务发现——Netflix Eureka客服端负载均衡——Netflix Ribbon断路器——Netflix Hystrix服务网关——Netflix Zuul分布式配置——Spring Cloud ConfigEureka一个RESTful服务,用来定位运行在AWS地区(Region转载 2016-11-04 17:52:21 · 2989 阅读 · 0 评论 -
PostgreSQL XL Installation Guide
Host1Host2全局配置vi /etc/profileexport PGHOME=/appl/postgres-xl-9.5r1.4export PGUSER=pgxlexport LD_LIBRARY_PATH=$PGHOME/libexport PATH=$PATH:$PGHOME/binsource /etc/profile原创 2017-01-11 15:31:47 · 1780 阅读 · 0 评论 -
Apache Ignite
2015年开源到Github,同年成为Apache顶级项目,支持Java、.Net、C++、Scala。简而言之,是一个比Redis、Spark、Storm更为快速的实时-分布式-内存-支持事务-支持SQL的框架。是Alluxio(前身Tachyon)的挑战者。缺点很明显:未见生产级应用,实操资料很少,近乎只有源码和API。 1、Advanced Clustering通过心跳服原创 2017-03-11 19:54:13 · 3410 阅读 · 0 评论 -
redis 集群安装配置
转自朋友手稿~~一、安装目标:假设2台物理服务器的内存各只有256G,而redis集群要求最少3个主节点。仅有主节点。规划为每台服务器上装2个redis节点,每个节点最大支持96G,2台机共4个redis主节点,合计384G内存。因内存较少,规划没有配置从节点。4个redis节点,每个节点使用单独的文件系统(每个150G),存储序列化的数据和日志。该方案可最大限度使用内转载 2016-02-05 17:49:12 · 633 阅读 · 0 评论 -
Hadoop FS Shell Command
FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS ShellThe FileSystem (FS) shell is invoked b转载 2016-01-23 15:46:32 · 588 阅读 · 0 评论 -
HTML Parser Jsoup - 网页抓取百度百科信息的例子
目标:获取百度百科基本信息、信息列表、人物图片(同名情况暂不考虑)。重点:调用开源Jar包Jsoup对HTML解析。例子(部分类去掉,运行需改改code):import java.io.IOException;import java.lang.reflect.InvocationTargetException;import java.lang.reflect.Method;原创 2015-03-27 18:29:22 · 1730 阅读 · 0 评论 -
lingpipe: 文本分词识别例子
1)什么是lingpipe?详细见百度,简而言之是自然语言处理软件包(Natural Language Processing,NLP)。lingpipe主要包含以下模块:主题分类(Top Classification)命名实体识别(Named Entity Recognition,NER)(什么是NER?继续百度。。。简而言之是人名、地名、机构名等文本识别)词性标注原创 2015-05-08 15:05:46 · 4562 阅读 · 0 评论 -
MongoDB基本例子
文档型数据库,文件存储格式为BSON(JSON的扩展),自动分片,数据结构不预先定义。不适用于事务性系统如银行或会计系统,不适用于BI商业智能。语法类似面向对象的查询语言。e.g.db.createCollection("user");db.user.insert({uid:1,username:"Falcon",age:25});db.user.update({uid:1},{$se原创 2015-05-26 17:15:34 · 471 阅读 · 0 评论 -
Logstash 正则匹配修改流程
这里使用假设路径,如与你的路径不一致,则稍作更改即可。一、修改正则匹配流程1)cd /home/logtools/logstash-1.4.2/mypatternsvi pattern_platform_xxx(Sometimes may also need to update /home/logtools/logstash-1.4.2/logagent-apa原创 2015-06-18 11:07:10 · 2085 阅读 · 0 评论 -
QuickMark: ElasticSearch curl command
e.g.curl -XPOST http://192.168.1.241:9200/12/log/ -d '{"log": {"message": "at java.lang.Class.forName(Class.java:190)","timestamp": 1428047291114,"@timestamp": "2015-04-03T07:48:11.114Z","host": "in原创 2015-05-15 16:52:25 · 643 阅读 · 0 评论 -
分布式数据库等其它一些基本概念(三)
ShardingRelating拆分 在集中式数据库中是一个大表,在分布式数据库中则创建多个分片表。 1、水平拆分 万言不如一例。设表CustomerIdName1A2B3C4D5原创 2015-05-22 18:33:44 · 469 阅读 · 0 评论 -
Logstash conf 参数解释归纳
Logstash *.conf 配置文件所使用的参数源于Ruby,现归纳如下:####################### 主要参数(总体架构是input/filter/output,而filter中最主要的是grok)# input# e.g.input{ file { path => "/var/log/*" # path => ["/ho原创 2015-05-18 16:22:57 · 11288 阅读 · 0 评论 -
Logstash pattern 例子
Logstash pattern 例子,就以Websphere为例:e.g.LEVEL (\w)LOG1 (%{GREEDYDATA:envname}(\s+)=(\s+)%{PATH:envpath})LOG2 (Java version = %{GREEDYDATA:javaversion}, Java Compiler = %{GREEDYDATA:javacompiler},原创 2015-05-22 15:37:06 · 6122 阅读 · 0 评论 -
分布式数据库等其它一些基本概念(一)
云计算基本概念:通过网络将大量的计算处理分拆到多部服务器,在计算之后回传用户终端。包括分布存储、并行计算、虚拟化(存储云、计算云、虚拟云)。Cloud computing is the use of computing resources (HW and SW) that are delivered as a service using a network of remote servers原创 2015-05-22 18:03:49 · 561 阅读 · 0 评论 -
分布式数据库等其它一些基本概念(二)
MPPMPP(Massively Parallel Processing),大规模并行处理系统。由许多松耦合的处理单元组成的,要注意的是这里指的是处理单元而不是处理器。每个单元内有对应的CPU,内存,硬盘,操作系统和管理数据库的实例复本。最大的特点在于不共享任何资源。其它架构或多或少会共享某些资源(如SMP、NUMA)。 分布式数据库架构解决数据库扩展能力的方法主要有两个:数据分片原创 2015-05-22 18:13:15 · 787 阅读 · 0 评论 -
数据建模
一、数据仓库建模架构1、业务/领域/主题层(domain / conceptual),业务分解、领域抽象2、逻辑层(logical / object),实体化、对象化3、物理层(physical),数据库化 二、各层展开1、业务/领域/主题层1.1 建模方法实体建模(实体、事件和说明),IBM - BDWM(Banking data warehouse model)原创 2015-06-24 18:14:46 · 1333 阅读 · 0 评论 -
Hadoop安装配置(棒极了,每一小步都写得非常清楚)
From http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和转载 2015-06-16 17:14:39 · 3027 阅读 · 1 评论 -
推荐 - Jsoup(附网页批量抓取例子)
目标:做一个简单的网站爬虫(怎么听怎么象virus。。。),访问父网站下的超链接,提取里面的文本内容。开始时,手工写HTML的标签解析,部分代码如下: /** * 获取Href List分析结果 * * @return List * @throws IOException */ public List getHref原创 2015-03-06 18:22:57 · 921 阅读 · 3 评论 -
Java 爬虫工具/开源API对比
注:基于网上收集到的信息,未经代码试验过。名称分类优点缺点Git 评价Apache Nutch搜索引擎分布式(依赖hadoop),为搜索引擎设计重量级,用于精抽取会低效,Nutch插件调试困难老大级Spiderman爬虫微内核+插件式架构,重配置(无需写代码),多线程用户太少star 525 | for原创 2015-06-09 15:03:36 · 3765 阅读 · 0 评论 -
舆情系统资料
舆情系统的分词算法(TextAnalysize)往往是系统的核心,通常都是某博士牵头搞的东西。目前汉语最强的是中科院张华平博士的ICTCLAS系统,主要基于隐马尔可夫模型(HMM)。以下是一些信息参考:ICTCLAS分词系统研究(一)~(五)http://blog.csdn.net/sinboy/article/details/622596ICTCLAS安装http转载 2015-04-27 10:19:30 · 931 阅读 · 0 评论 -
一致性hash算法: cache、负载均衡应用
From http://blog.csdn.net/yq76034150/article/details/6776044现在的网站用户量都很大,一台服务器包打天下的时代一去不复返了,多台服务器就存在一个问题,如何将访问用户转向不同的服务器,并且各个服务器接受的请求数大致相当呢?这就是一致性hash算法要解决的问题。一致性hash算法在负载服务器(ngnix、haproxy等)、K/V转载 2015-05-26 10:00:43 · 1365 阅读 · 0 评论 -
大数据平台创新
我曾为多个银行数据中心架构大数据平台及相关应用,现将部分成果记录下来。其总体以数据仓库、大数据分析平台为核心,整合差异化的数据服务能力,满足各类用户对数据的集成性、服务的多态性、平台可管控性的需求,更快速实现产品、服务、流程的创新,并支持业务创新模式。在搭建大数据平台的同时,还要关注如何把数据真正地用起来,为此,建立了多个数据应用,把大数据与业务紧密地结合起来。大数据平台的原创 2017-03-29 17:31:09 · 6756 阅读 · 0 评论