自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 电信项目 第一天

模拟生成数据略   配置flume kafka 接受数据 让hbase消费 zookeeper 地址 192.168.36.139:2181,192.168.36.139:2182,192.168.36.139:2183   kafka创建主题 kafka-topics.sh --zookeeper 192.168.36.139:2181,192.168.36.139:2182,19...

2018-10-29 22:06:43 904

原创 librec nfm实现笔记

  FM 如下图 一般一个场景一共n个特征  xi是其中一个特征  对应到一阶wi为一个数 对应到二阶就是一个特征向量vi 与另一个特征向量vj的内积。向量长度一般称为embedding_size  fm在于刻画任意两个联合特征的影响。         NFM 核心部分 Bi-Interaction Layer 就是任意两个k维特征向量做element-wise 乘积然后相...

2018-10-29 16:54:15 1485

原创 八天学会hadoop (6) hbase

hbase 基于Hdfs 文件系统  hbase 支持随机高速访问 hbase 没有事务特性 hbase不能处理联合关系处理 比如mysql 里面的join  hbase优点在于存放非常大的表 百万行 百万列 支持随机高速访问   Hbase 表结构 表名->行键->列族(column family)->列名(qualifier)->版本号   具体请查看...

2018-10-27 21:34:15 221

原创 八天学会hadoop (5) hadoop 高可用 hive 入门

Hadoop 高可用   想要高可用 必须有两个namenode 一个active 一个standby  namenode中的edits文件由第三方qjournal(依赖zookeeper)保存。       hive 流程    首先是create语句 会创建一些元信息存到元数据库 比如表名 创建时间  下次执行查询语句 先经过hive的compiler模块生成java...

2018-10-27 21:02:52 431

转载 八天学会hadoop (4) 了解zookeeper

zookeeper 感性认识 存储一些少量数据 数据分布式一致 Zookeeper 节点类型 Zookeeper 角色 客户端读数据可以连接 observer 提高读取速度 但是observer不参与投票过程         Dubbo 与zookeeper的关系           Dubbo建议使用Zookeeper作为服务的注册中心。 1.   Zo...

2018-10-27 11:10:21 149

原创 八天学会hadoop (3) 流量排序统计实战

流量统计实战   先复习一波hadoop shuffle的过程 1.map task 过程中会把数据写入到内存中,在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序。 2. 接着会进行combine过程(如果设置了combiner了的话) combine本身也是一个reducer 会对写入到磁盘的数据...

2018-10-26 17:48:56 412

原创 八天学会hadoop(2) yarn流程

hdfs 源码分析 FileSystem.get --> 通过反射实例化了一个DistributedFileSystem --> new DFSCilent()把他作为自己的成员变量 在DFSClient构造方法里面,调用了createNamenode,使用了RPC机制,得到了一个NameNode的代理对象,就可以和NameNode进行通信了 FileSystem --> Di...

2018-10-26 15:43:07 409

原创 八天学会hadoop (1) 数据同步 rpc

1 hadoop 下载hdfs文件到本地 拿到hdfs的输入流(把hdfs的文件搬运到内存)   拿到本地文件输出流(java)把内存搬运到本地文件   2 hadoop 数据同步的过程 元数据信息指的是文件的大小 名称 修改时间 地址 创建时间等等 edits 文件与fsimage文件合并在 secondary namenode里面     3 rpc 底层原理   ...

2018-10-25 15:42:27 1099 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除