cyclebozhou
码龄7年
关注
提问 私信
  • 博客:134,060
    社区:1
    134,061
    总访问量
  • 56
    原创
  • 1,321,065
    排名
  • 26
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2017-09-22
博客简介:

moonbis的博客

查看详细资料
个人成就
  • 获得80次点赞
  • 内容获得30次评论
  • 获得24次收藏
创作历程
  • 55篇
    2018年
  • 1篇
    2017年
成就勋章
TA的专栏
  • 虚拟机
    1篇
  • 联网
    1篇
  • javaweb技术
    6篇
  • java
    3篇
  • 大数据
    7篇
  • hadoop
    7篇
  • zookeeper
    3篇
  • spark
    14篇
  • scala
    2篇
  • hbase
    12篇
  • 机器学习
    1篇
  • hive
    1篇
  • python
    1篇
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Spark Streaming整合kafka(2)

KafkaUtils.createDstream方式(基于kafka高级Api—–偏移量由zk保存) import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.s...
原创
发布博客 2018.03.29 ·
1529 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

sqoop导入导出

导入语法:$ sqoop import (generic-args) (import-args)配置了环境变量可以直接使用sqoop否则需要找到对应目录 bin/sqoop导入mysql表数据到HDFSbin/sqoop import \ –connect jdbc:mysql://node-1:3306/userdb \ –username root \ –passwor...
原创
发布博客 2018.03.26 ·
654 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

spark中的数据倾斜的现象

spark中的数据倾斜的现象、原因、后果 (1)、数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 (2)、数据倾斜的原因 数据问题 1、key本身分布不均衡(包括大量的key为空) 2、key的设置不合理 spark使用问题 1、shuffle时的并发度不够 2、计算方式有误 (3)、数据倾斜的后果 1、sp...
原创
发布博客 2018.03.26 ·
982 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

PyCharm3.0默认快捷键

PyCharm3.0默认快捷键PyCharm Default Keymap1、编辑(Editing)Ctrl + Space 基本的代码完成(类、方法、属性)Ctrl + Alt + Space 快速导入任意类Ctrl + Shift + Enter 语句完成Ctrl + P 参数信息(在方法中调用参数)Ctrl + Q 快速查看文档F1 外...
原创
发布博客 2018.03.25 ·
242 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka

要点producer:生产者,push consumer:消费者,pull topic:主题,区分每一类消息 broker:kafka中存储节点 partition:分区,将topic分成多个分片,方便操作备份 安装和部署 kafka的api: 消费者,生产者官网有案例Documentation kafka分区方式: 1.手动指定分区号 2.通过动态...
原创
发布博客 2018.03.16 ·
704 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

zookeeper运用

1.1. 统一命名服务 类似于域名服务,和java的包名服务 分布式应用中,通常需要有一套完整的命名规则,既能够产生唯一的名称又便于人识别和记住,通常情况下用树形的名称结构是一个理想的选择,树形的名称结构是一个有层次的目录结构,既对人友好又不会重复。 Name Service 是 Zookeeper 内置的功能,只要调用 Zookeeper 的 API 就能实现1.2. 配置...
原创
发布博客 2018.03.16 ·
398 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

zookeeper概要

对于集群注意时间要同步概述:实质是一个分布式小文件==存储系统==(目录树结构) 功能:统一命名系统 特性:全局数据一致性(事务性全局统筹)主从:两种角色职责不同,从要受主的的管理 leader+follower两种架构:只能访问老大,重要的事情交给老大注备:解决单点故障,两种角色职责一样 ,同一时刻有且只有一个干活active,standby可靠性:一台接受全...
原创
发布博客 2018.03.16 ·
236 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

跨部门数据管理

数据源(产生): 内部数据 前端:埋点,日志 后端:数据库 业务系统数据 外部数据:爬虫,搜索引擎数据存储(数据仓库): 文件服务管理规范 增量 全量 重传序号 MD5校验文件(MD5值是否相同判断上传下
原创
发布博客 2018.03.14 ·
1407 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive原理

Hive的数据存储结构: 元数据存储:通常存储在关系型数据库中比如mysql derby(hive自带的一般不用,路径不同记录不同)作用是用来将hdfs文件,目录和sql映射关系存储Hive 中所有的数据都存储在 HDFS 中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。e Hive 中包含以下数据模型:db :在 hdfs 中表现为 hiv
原创
发布博客 2018.03.14 ·
1199 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Vmware 、Linux 基础操作

虚拟 DHCP 服务器主要有两个用途: 1. 给内部网络自动分配 IP 地址; 2. 作为对所有计算机作中央管理的手段虚拟机三种联网方式:桥接 VMnet0仅主机 VMnet1NET VMnet8VMware虚拟机克隆 VMware 支持两种类型的克隆:完整克隆 链接克隆需要关闭虚拟机右键需要克隆虚拟机选择管理>克隆克隆后需要修改的地方:
原创
发布博客 2018.03.14 ·
1189 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

机器学习数学基础-微积分(1)

极限1. 函数 f 在 x 0 处的极限为 L :limx→+x0f(x)\lim_{x\rightarrow+x0}{f(x)}= L 对于任意的正数 ϵ > 0, 存在正数 δ, 使得任何满足 |x − x 0 | < δ 的 x, 都有 |f(x) − L| < ϵ2. 无穷小阶数(Definition)3. 微分:4. 链式法则
原创
发布博客 2018.03.14 ·
794 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

SparkStreaming开窗函数reduceByKeyAndWindow原理

StreamingContext开窗函数
原创
发布博客 2018.03.14 ·
1771 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Spark Streaming整合kafka(1)

spark整合kafka
原创
发布博客 2018.03.14 ·
805 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hbase集群结构

Hbase基本组件说明
原创
发布博客 2018.03.14 ·
617 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hbase的shell命令行(2)

hbase的shell查询删除操作
原创
发布博客 2018.03.14 ·
657 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

hbase的shell命令行(1)

hbase命令行操作
原创
发布博客 2018.03.14 ·
651 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hbase的过滤器分类(3)

单元测试多种过滤器使用/** * 多种过滤条件的使用方法 * @throws Exception */ @Test public void testScan() throws Exception{ HTable table = new HTable(conf, "person_info".getBytes()); S...
原创
发布博客 2018.03.14 ·
622 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hbase的过滤器分类(2)

分页过滤器 PageFilter public static void main(String[] args) throws Exception { Configuration conf = HBaseConfiguration.create(); conf.set("hbase.zookeeper.quorum", "spark01:2181,spa...
原创
发布博客 2018.03.14 ·
568 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hbase的过滤器分类(1)

比较过滤器1.1 行键过滤器RowFilter Filter filter1 = new RowFilter(CompareOp.LESS_OR_EQUAL, new BinaryComparator(Bytes.toBytes(“row-22”))); scan.setFilter(filter1); 1.2 列族过滤器FamilyFilter Filter filter1 ...
原创
发布博客 2018.03.14 ·
1034 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hbase 表预分区----手动分区

默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。 命令方式: create ‘t1’, ‘f1’, {NUMREGI...
原创
发布博客 2018.03.14 ·
3658 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏
加载更多