![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 75
李孟聊人工智能
独立开源软件开发者,SolidUI作者。老程序员,老扑街作者,依然奋战在开源一线,依然继续写文章。
展开
-
大数据职业规划
大数据职业规划原创 2022-10-19 15:28:57 · 2437 阅读 · 0 评论 -
数据的分类和分级
数据分类分级原则原创 2022-09-24 15:58:16 · 5018 阅读 · 0 评论 -
Dataflow Model总结
一.简介The Dataflow Model 是 Google Research 于2015年发表的一篇流式处理领域的有指导性意义的论文,它对数据集特征和相应的计算方式进行了归纳总结,并针对大规模/无边界/乱序数据集,提出一种可以平衡准确性/延迟/处理成本的数据模型。这篇论文的目的不在于解决目前流计算引擎无法解决的问题,而是提供一个灵活的通用数据模型,可以无缝地切合不同的应用场景。二.CLC与CAPCAPIn a distributed system (a collection of inter原创 2020-10-13 20:11:00 · 878 阅读 · 1 评论 -
开源数据交换(client)
文章目录一.项目简介二.编译部署2.1 客户端三.快速使用3.1 客户端四.底层已支持计算存储引擎4.1 客户端五.架构六.开发规范6.1 客户端传参规范6.2 测试用例七.问题八.总结一.项目简介exchange是要打造一个轻量级,高扩展性的数据交换平台,支持对结构化及无结构化的异构数据源之间的数据传输,在应用层上具有数据权限管控、节点服务高可用和多租户资源隔离等业务特性,而在数据层上又具有传输架构多样化、模块插件化和组件低耦合等架构特点。exchange的传输能力依赖于Apache Beam链路计原创 2020-07-14 15:47:45 · 2426 阅读 · 2 评论 -
dslinkis数据开放平台报错01
2020-03-31 20:04:22.691 INFO [Thread-29] com.netflix.discovery.DiscoveryClient 866 shutdown - Shutting down DiscoveryClient ...2020-03-31 20:04:22.692 INFO [Thread-29] com.netflix.discovery.Discove...原创 2020-04-27 16:49:01 · 1271 阅读 · 0 评论 -
GitChat-Hive 权限管理应用
Hive 权限在开发过程中常常用到,Hive 本身的权限用来防止用户做不合适的事情,粒度没有那么细(不到列级别、行级别),它是不完整的,本文中通过数据开放平台中用到权限方式,实战中演练,研究这种思想如何影响着数据应用权限的扩展!1.简介2.元数据字典3.用户、组和角色4.Grant 和 Revoke 权限5.Hive 和 Hadoop 权限关系6.数据开放平台的应用7.演化8.不足...原创 2020-04-22 21:01:49 · 388 阅读 · 0 评论 -
Ambari介绍
Ambari目标解决Hadoop生态系统部署 部署:hadoop组件间有依赖,包括配置、版本、启动顺序、权限配置等。 部署过程跟踪。能够展示出部署过程中每个步骤的状态及相关信息。多机部署问题,当集群规模增加后,机器出问题机率增加,在部署或更新中可能会出现机器故障 组件本身设计:hadoop及其组件需要容忍机器的故障,同时需要防止不兼容 版本组件给系统带来的影响 ...原创 2017-06-06 16:27:00 · 1191 阅读 · 0 评论 -
lucene,solr,nutch,hadoop的区别和联系
apache lucene是apache下一个著名的开源搜索引擎内核,基于Java技术,处理索引,拼写检查,点击高亮和其他分析,分词等技术。 nutch和solr原来都是lucene下的子项目。但后来nutch独立成为独立项目。nutch是2004年由俄勒冈州立大学开源实验室模仿google搜索引擎创立的开源搜索引擎,后归于apache旗下。nutch主要完成抓取,提取内容等工作。 ...原创 2017-05-03 10:44:45 · 944 阅读 · 0 评论 -
squirrel-sql Phoenix安装
下载安装略导入jar:phoenix-4.8.1-HBase-1.2-clientphoenix-4.8.1-HBase-1.2-queryserverphoenix-4.8.1-HBase-1.2-serverphoenix-4.8.1-HBase-1.2-thin-clientphoenix-core-4.8.1-HBase-1.2phoenix-core-4....原创 2017-05-09 13:56:01 · 1139 阅读 · 0 评论 -
zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg
zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。其中各配置项的含义,解释如下: 1.tickTime:CS通信心跳时间Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。tickTime=2000 ...原创 2017-03-13 21:19:16 · 1744 阅读 · 0 评论 -
Apache-Tika解析pdf文档
public DocumentContent readPath(InputStream stream,Path path) {//Tika默认是10*1024*1024,这里防止文件过大导致Tika报错 BodyContentHandler handler = new BodyContentHandler(100*1024*1024); Metad...原创 2017-06-16 11:25:25 · 1554 阅读 · 0 评论 -
Apache-Tika解析JPEG文档
package com.mengyao.tika.app;import java.io.File;import java.io.FileInputStream;import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.ParseContext;import org.apache.tika.parse...原创 2017-06-16 11:14:48 · 1290 阅读 · 2 评论 -
使用Phoenix自带的工具执行sql脚本
phoenix自带了执行sql脚本的功能,这样方便了希望能够直接将一些关系型数据库的数据进行迁移到Hbase(也可以直接使用sqoop进行导入)。 在【PHOENIX_HOME】目录下创建user.sql,内容如下: -- create table usercreate table if not exists user (id varchar primary key,accou...原创 2017-04-19 17:58:52 · 2259 阅读 · 0 评论 -
Phoenix中Sequence的用法
Phoenix--HBase的JDBC驱动 序列(Sequence)是Phoenix提供的允许产生单调递增数字的一个SQL特性,序列会自动生成顺序递增的序列号,以实现自动提供唯一的主键值。使用CREATE SEQUENCE语句建立序列的语法如下:create sequence[start with n][increment by n][minvalue n][max...原创 2017-04-19 17:28:08 · 872 阅读 · 0 评论 -
zookeeper shell
首先知道交互式shell和非交互式shell、登录shell和非登录shell是有区别的使用shell脚本启动zookeeper1.把profile的配置信息echo到.bashrc中 echo 'source /etc/profile' >> ~/.bashrc (集群每台) 2.在/zookeeper/bin/zkEnv.sh的中开始位置添加 export JAV...原创 2017-03-23 18:02:59 · 967 阅读 · 0 评论 -
rpc系列-ZooKeeper
一.简介Zookeeper是一个分布式协调服务,就是为用户的分布式应用程序提供协调服务。Zookeeper本身就是一个分布式程序(只要有半数以上节点存活,zk就能正常服务)。Zookeeper所提供的服务涵盖:主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务…… 虽然说可以提供各种服务,但是zookeeper在底层其实只提供了两个功能:管理(存储,读...原创 2018-09-28 19:25:43 · 2098 阅读 · 0 评论 -
Spark-线性回归示例01
房屋普查,预测房价,最后预测结果不太准确,后续会调整,可能的原因:最直接原因指标项没有强线性关系,使用的参数不准确。只是为了熟悉下流程。import org.apache.spark.ml.feature.StandardScalerimport org.apache.spark.sql.types.{DoubleType, FloatType, StructField, Struct...原创 2019-06-12 15:45:52 · 1441 阅读 · 0 评论 -
ambari安装
1.安装环境说明:三台Centos7Jdk1.7Mysql5.72.操作系统准备2.1配置ssh免密码登录mkdir ~/.ssh/ssh-keygen -t rsa (四个回车)执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免登陆的机器上ssh-copy-id localhost2.2创建ambari系...原创 2017-06-06 16:11:06 · 975 阅读 · 0 评论 -
phoenix删除数据
操作过程: 第一步删除phoenix中系统的表格信息,主要为SYSTEM.CATALOG,第二步删除Hbase中的表格信息。操作步骤: (1)查询phoenix系统表 SYSTEM.CATALOG 内容是所有表格的信息,系统表和自建表SYSTEM.FUNCTION 内容是所有函数信息,系统函数和自定义函数SYSTEM.SEQUENCE 我也不知道SYSTEM.STATS 内容...原创 2017-04-17 20:31:09 · 10646 阅读 · 0 评论 -
ambari服务关一半,停电了遇到的bug
ambari webui hosts全部丢失,/etc/hosts ip没有变,映射没变最后查看/var/log/ambari-agent/ambari-agent.log 所有服务组件拒绝连接/var/log/ambari-agent/ambari-server.log ambari库两个表结构alert_current host_role_command 结构坏了修复表my...原创 2017-10-30 19:20:20 · 1306 阅读 · 0 评论 -
Phoenix 批量增加
1.phoenix 利用CsvBulkLoadTool 批量带入数据并自动创建索引在phoenix 目录下执行hadoop jar /home/phoenix-4.6.0-HBase-1.0-bin/phoenix-4.6.0-HBase-1.0-client.jar org.apache.phoenix.mapreduce.CsvBulkLoadTool -t POPULATION -...原创 2017-05-12 15:35:59 · 6217 阅读 · 2 评论 -
kylin安装---安装系列十一
承接安装系列hadoop,hivehive 与 kylin的搭建在原有hadoop+hbase+hive+spark基础上搭建hive配置环境变量添加如下:/etc/profile和 ~/.bash_profile export HCAT_HOME=$HIVE_HOME/hcatalog export HIVE_CONF=$HIVE_HOME/conf export hiv...原创 2017-04-30 16:57:46 · 1255 阅读 · 0 评论 -
phoenix安装---安装系列十
承接安装系列hadoop,hbase部署到(cdh5.5.1)安装flume下载安装包并解压flume-ng-1.6.0-cdh5.5.1.tar.gz配置环境变量:~/.bash_profile export FLUME_HOME=/itcast/flume-1.6.0export PATH=$PATH:$FLUME_HOME/bin配置flume-env.sh文件$FLUM...原创 2017-04-30 16:54:19 · 1717 阅读 · 0 评论 -
hadoop+hbase+hive+Spark环境性能调优---安装系列九
部分调优spark-env.sh:spark.speculation 的节点上也尝试执行该任务的一个副本。打开此选项会帮助减少大规模集群中个别较慢的任务带来的影响。默认值falsespark.driver.memory为driver进程分配的内存。注意:在客户端模式中,不能在SparkConf中直接配置该项,因为driver JVM进程已经启动了。默认1gspark.executor...原创 2017-04-30 16:52:44 · 2265 阅读 · 0 评论 -
hive环境---安装系列五
承接安装系列hadoop,hbase环境//hive 安装一个节点 1.上传tar包2.解压tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /itcast/3.mkdir /itcast/hive-1.2.1/logs4./itcast/hive-1.2.1/conf/hive-site.xml<?xml version="1....原创 2017-04-30 16:36:30 · 1250 阅读 · 0 评论 -
hive报错---安装系列六
Mondrian对Hive的支持一.测试Mondrian对Hive的支持1.创建一个web项目,把olap4j.jar Mondrian.jar以及hive相关的jar包放进项目中2. 准备四张表 Customer - 客户信息维表 Product - 产品维表 ProductType - 产品类表维表 Sale - 销售记录表:在hive shell下执行下面命令:crea...原创 2017-04-30 16:40:57 · 3490 阅读 · 0 评论 -
Hbase集群部署计划---安装系列四
承接安装系列hadoop环境 1.上传hbase安装包tar -zxvf hbase-0.96.2-hadoop2-bin.tar.gz -C /itcast/2.解压 3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了)注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase...原创 2017-04-30 16:32:46 · 1111 阅读 · 0 评论 -
hadoop报错解决方案---安装系列三
操作过程中主要出现以下几个错误:Unsupported major.minor version 51.0处理办法:eclipse下的项目的jdk环境和liux下的jdk环境不一致,将windows下的eclipse中的jdk环境与linux的环境更改一致切换linux的jdk版本为1.7:上传jdk7压缩包并解压配置jdk变量 vi /etc/profil...原创 2017-04-30 16:28:27 · 1979 阅读 · 0 评论 -
hadoop重新编译---安装系列二
yum -y install lzo-devel zlib-devel gcc autoconf automake libtool gcc-c++ openssl-devel ncurses-devel ant maven protocolbuf findbugs cmake 1、Protobuf 编译安装 tar -zxvf protobuf-2.5.0.tar....原创 2017-04-30 16:26:41 · 1744 阅读 · 0 评论 -
3台hadoop集群部署计划---安装系列一
注意:apache官网提供的hadoop-2.x的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.6.0就需要重新在64操作系统上重新编译安装 yum install psmiscKillall -9 java安装 glibc-headers 和 g++ 命令如下: $yum install glib...原创 2017-04-30 16:23:34 · 1237 阅读 · 0 评论 -
hadoop基准测试总结
hadoop jar /usr/hdp/2.4.0.0-169/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-2.7.1.2.4.0.0-169.jar TestDFSIO -write -nrFiles 100 -fileSize 100100个文件,每个100M ----- TestDFSIO ----- : ...原创 2018-03-31 15:27:33 · 1790 阅读 · 0 评论 -
推荐系统-简介
一.简介推荐系统本质上是销售系统的一部分。为了解决信息过载和用户无明确需求的问题,找到用户感兴趣物品,才有了个性化推荐。 二.组成推荐系统广泛存在于各类网站中,一般由三部分组成:基础数据、推荐算法系统、前台展示。基础数据包括很多维度,包括用户的访问、浏览、下单、收藏,用户的历史订单信息,评价信息等很多信息;推荐算法系统主要是根据不同的推荐诉求由多个算法组成的推荐模型;前台展示主...原创 2018-06-11 16:02:22 · 3602 阅读 · 0 评论 -
hue介绍系列02
配置cd /etc/hue/confvi hue.ini desktop default_hdfs_superuser hadoop HDFS管理用户desktop http_host 10.10.41.123 Hue Web Server所在主机/IPdesktop http_port 8000 Hue Web Server服务端口desktop server_user...原创 2017-11-27 17:22:04 · 832 阅读 · 0 评论 -
大话数据--思维
大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。一.思维1.不是随机样本,全体数据 小数据时代的主要方式随机采样: 采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量 的增加关系不大 当人们...原创 2018-04-09 12:20:08 · 765 阅读 · 0 评论 -
hue介绍系列01
Hue介绍Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 Hue作用 1,访问HDFS和文件浏览 2,通过web调试和开发hive以及数据结果展示 3,查询solr和结果展示,报表生成 4,通过web调试和开发impala交互式SQL Query 5,spark调试和开发 6,Pig开发和调试 7,oozie任务...原创 2017-11-27 17:12:23 · 953 阅读 · 0 评论 -
学习大数据方向
大数据指无法用传统数据库软件工具对其内容进行抓取、管理和处理的大体量数据集合。海量数据处理指判断数据的价值。 一、海量数据分成两块,一是系统建设技术,二,海量数据应用。目前我了解大数据的职位:大数据架构工程师大数据算法工程师(数据分析工程师,数据挖掘工程师)大数据运维工程师 二、系统建设技术目前常用的hadoop生态圈技术,结构如图:涉及到应用类型,数...原创 2017-09-28 17:18:43 · 943 阅读 · 0 评论 -
Phoenix优化
hbase-site.xml:<property><name>hbase.master.maxclockskew</name><value>45000000</value></property><property> <name>hbase.rpc.timeout&原创 2017-05-17 18:02:11 · 1794 阅读 · 0 评论