大数据Spark/Hadoop
文章平均质量分 53
wang2008start
这个作者很懒,什么都没留下…
展开
-
HBaseCon2018——笔记
HBase 在阿里 将数据分热、温、冷三种不同的层级,底层采用AEP、SSD、HDD三种不同硬件。 HBase 一致性内存目前的逻辑是 put 保存到 region 的memory,同时写到WALs, 是从数据写到WALs,当达到存储大小时 flush 到HDFS,当crach时 重放WAL在 region 层面的副本,在其他的regionserver 上...原创 2018-08-20 02:44:16 · 219 阅读 · 0 评论 -
spark入门笔记scala版
基本使用打开python版本的spark shell方式:bin/pyspark 打开scala版本的spark shell方式:bin/spark-shell conf/log4j.properties log4j.rootCategory=INFO,console 改为WARN,console,降低日志级别,减少无用日志输出lines=sc.textFile("a.txt"...原创 2017-08-14 15:37:19 · 362 阅读 · 0 评论 -
Hadoop/Spark推荐系统(四)——推荐链接(二度好友)
思路如果两个人有一组共同好友,但这两个人本身不是好友,那个就会推荐他们联系,最后都可以归结为查找。用户1的所有好友里两两互为推荐好友,用户1和好友的关系为直接好友。先循环所有用户的所有好友,找出全部推荐好友和直接好友,在全部推荐好友去除直接好友即为推荐好友。所有的推荐好友中会按图论中的路径数对好友有个评分,只显示推荐联系的10个人,即取top 10.与共同好友的区别共同好友在于计算...原创 2017-09-22 23:51:01 · 662 阅读 · 0 评论 -
Hadoop/Spark推荐系统(三)——经常一起购买的商品
思路将每一个购买清单拆解成物品两两组合,计算每个组合出现的总次数。 与上一环节“购买了该商品的顾客还购买了的商品”区别之处在于: 购买了该商品的顾客还购买了的商品,input是用户为key,value为该用户的多次购买清单 经常一起购买的商品,input是交易编号,value为一次购买清单。所以此为购物篮分析的一个变种。输入:T1 {P1,P2,P3} T2 {P2,P3} T3 {P2,原创 2017-09-22 23:20:41 · 896 阅读 · 0 评论 -
Hadoop/Spark推荐系统(二)——购买过该商品的顾客还购买了哪些商品
Stripes设计模式(k,k1) 3 (k,k2) 3 (k,k3) 2 (k,k4) 4 (z,z1) 1 (z,z2) 3 (z,z3) 2 (z,z4) 3 Stripes k {(k1,3),(k2,3),(k3,2),(k4,4)} z {(z1,1),(z2,3),(z3,2),(z4,3)} 输入: 算法:MR1 阶段生成同一个用户购买的所有商品的列表,由mr原创 2017-09-22 22:22:13 · 963 阅读 · 0 评论 -
Hadoop/Spark推荐系统(一)——共同好友
输入:,mapper-input: #好友关系是对称的,整个数据的关系边是偶数 (u1,[f1,f2,f3]) (u2,[f2,f3]) (f1,[u1,f3]) (f2,[u1,u2]) (f3,[u1,u2,f1])mapper-output将一条用户的好友列表数据,拆成这个用户每个好友对为key的表示形式(key的表示字母或数字有序),value依然为好友里列表形式,共12组 ([原创 2017-09-22 19:30:38 · 1039 阅读 · 0 评论 -
redis整理
redis基本操作键是字符串对象,值可以为String,List,Hash,Set,SortedSet字符串对象Stringsetredis> set key1 100 redis> set key2 ‘value2’getredis> get key1incrredis> incr key1incrbyredis> incr key1 20 decrredis> decr key1decrbyr原创 2017-06-29 13:02:07 · 391 阅读 · 0 评论 -
redis+twemproxy+socket访问
redis集群Twemproxy作为代理,可接受来自多个程序的访问,按照路由规则,转发给后台的各个Redis服务器,再原路返回。该方案很好的解决了单个Redis实例承载能力的问题。当然,Twemproxy本身也是单点,需要用Keepalived做高可用方案。通过Twemproxy可以使用多台服务器来水平扩张redis服务,可以有效的避免单点故障问题。虽然使用Twemproxy需要更多的硬件资源和在r原创 2017-07-06 18:12:11 · 295 阅读 · 0 评论 -
kafka梳理
为何使用消息系统解耦: 消息系统在处理过程中间插入了一个隐含的、基于数据的接口层,两边的处理过程都要实现这一接口,允许你独立的扩展或修改两边的处理过程,确保遵守同样的接口约束。 冗余、 扩展性、 可恢复性、顺序保证、 缓冲、 异步通信、灵活性&峰值处理能力:使用消息队列能够使关键组件顶住突发的访问阿里,而不会因为突发的超负荷请求完全奔溃。Kafka简单流程:产生消息的前端属于Producer,原创 2017-06-26 17:19:15 · 245 阅读 · 0 评论 -
HBase知识点整理
结构Region server负责实际数据的读写,当访问数据时,客户端与HBase的RegionServer直接通信。RegionServer负责管理多个Region,负责在此上面的所有Region的读写操作。运行在HDFS的DataNode上,包含四部分:WAL,BlockCache(读缓存),MemStore(写缓存),HFiles(keyvalue对)Master Server管理R...原创 2018-10-07 20:11:44 · 173 阅读 · 0 评论