Spark Streaming整合kafka(2) KafkaUtils.createDstream方式(基于kafka高级Api—–偏移量由zk保存) import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.s...
sqoop导入导出 导入语法:$ sqoop import (generic-args) (import-args)配置了环境变量可以直接使用sqoop否则需要找到对应目录 bin/sqoop导入mysql表数据到HDFSbin/sqoop import \ –connect jdbc:mysql://node-1:3306/userdb \ –username root \ –passwor...
spark中的数据倾斜的现象 spark中的数据倾斜的现象、原因、后果 (1)、数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 (2)、数据倾斜的原因 数据问题 1、key本身分布不均衡(包括大量的key为空) 2、key的设置不合理 spark使用问题 1、shuffle时的并发度不够 2、计算方式有误 (3)、数据倾斜的后果 1、sp...
PyCharm3.0默认快捷键 PyCharm3.0默认快捷键PyCharm Default Keymap1、编辑(Editing)Ctrl + Space 基本的代码完成(类、方法、属性)Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息(在方法中调用参数)Ctrl + Q 快速查看文档F1 外...
kafka 要点producer:生产者,push consumer:消费者,pull topic:主题,区分每一类消息 broker:kafka中存储节点 partition:分区,将topic分成多个分片,方便操作备份 安装和部署 kafka的api: 消费者,生产者官网有案例Documentation kafka分区方式: 1.手动指定分区号 2.通过动态...
zookeeper运用 1.1. 统一命名服务 类似于域名服务,和java的包名服务 分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。 Name Service 是 Zookeeper 内置的功能,只要调用 Zookeeper 的 API 就能实现1.2. 配置...
zookeeper概要 对于集群注意时间要同步概述:实质是一个分布式小文件==存储系统==(目录树结构) 功能:统一命名系统 特性:全局数据一致性(事务性全局统筹)主从:两种角色职责不同,从要受主的的管理 leader+follower两种架构:只能访问老大,重要的事情交给老大注备:解决单点故障,两种角色职责一样 ,同一时刻有且只有一个干活active,standby可靠性:一台接受全...
跨部门数据管理 数据源(产生): 内部数据 前端:埋点,日志 后端:数据库 业务系统数据 外部数据:爬虫,搜索引擎数据存储(数据仓库): 文件服务管理规范 增量 全量 重传序号 MD5校验文件(MD5值是否相同判断上传下
Hive原理 Hive的数据存储结构: 元数据存储:通常存储在关系型数据库中比如mysql derby(hive自带的一般不用,路径不同记录不同)作用是用来将hdfs文件,目录和sql映射关系存储Hive 中所有的数据都存储在 HDFS 中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。e Hive 中包含以下数据模型:db :在 hdfs 中表现为 hiv
Vmware 、Linux 基础操作 虚拟 DHCP 服务器主要有两个用途: 1. 给内部网络自动分配 IP 地址; 2. 作为对所有计算机作中央管理的手段虚拟机三种联网方式:桥接 VMnet0仅主机 VMnet1NET VMnet8VMware虚拟机克隆 VMware 支持两种类型的克隆:完整克隆 链接克隆需要关闭虚拟机右键需要克隆虚拟机选择管理>克隆克隆后需要修改的地方:
机器学习数学基础-微积分(1) 极限1. 函数 f 在 x 0 处的极限为 L :limx→+x0f(x)\lim_{x\rightarrow+x0}{f(x)}= L 对于任意的正数 ϵ > 0, 存在正数 δ, 使得任何满足 |x − x 0 | < δ 的 x, 都有 |f(x) − L| < ϵ2. 无穷小阶数(Definition)3. 微分:4. 链式法则
Hbase的过滤器分类(3) 单元测试多种过滤器使用/** * 多种过滤条件的使用方法 * @throws Exception */ @Test public void testScan() throws Exception{ HTable table = new HTable(conf, "person_info".getBytes()); S...
Hbase的过滤器分类(2) 分页过滤器 PageFilter public static void main(String[] args) throws Exception { Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "spark01:2181,spa...
Hbase的过滤器分类(1) 比较过滤器1.1 行键过滤器RowFilter Filter filter1 = new RowFilter(CompareOp.LESS_OR_EQUAL, new BinaryComparator(Bytes.toBytes(“row-22”))); scan.setFilter(filter1); 1.2 列族过滤器FamilyFilter Filter filter1 ...
Hbase 表预分区----手动分区 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。 命令方式: create ‘t1’, ‘f1’, {NUMREGI...