《Data Algorithms》
《Data Algorithms: Recipes for Scaling Up with Hadoop and Spark》 读书笔记
说文科技
同名公众号【说文科技】,做有态度的研究。
展开
-
《Data Algorithm》读书笔记五之 — 反转排序
《Data Algorithm》读书笔记五之 — 反转排序【updating…】1. 什么是反转排序2. 如何实现反转排序?3.实现代码4. 实现结果java is a great languagejava is a programming languagejava is green fun languagejava is greatprogramming with java i...原创 2019-01-10 18:10:21 · 396 阅读 · 0 评论 -
《Data_Algorithm》读书笔记四 — 使用MapReduce实现左外连接
《Data_Algorithm》读书笔记四 — chapter 41.左外连接左外连接即left join,这个在 mysql 中是很常见的操作,如下表:1.1 创建表create table users(user_id varchar(10),location_id varchar(10));create table transactions(transaction_id v...原创 2019-01-09 23:04:47 · 482 阅读 · 0 评论 -
《Data Algorithm》读书笔记 — 使用MapReduce实现二次排序
《Data Algorithm》读书笔记一 — Chapter 11. 二次排序1.1 什么是二次排序?什么是二次排序?二次排序就是 基于某个Key = k1排序之后的结果再进行Key=k2排序。 下面给出一个示例:2000,12,04,102000,11,01,202012,12,23,602000,12,02,-202012,12,22,-202000,11,07,3020...原创 2018-12-30 14:32:40 · 420 阅读 · 0 评论 -
《Data Algorithm》读书笔记之十二 — K-均值聚类
《Data Algorithm》读书笔记之十二 — K-均值聚类【updating…】1. K-均值聚类算法1.1 简介K-均值聚类算法是一个迭代算法,它需要多个Map? Reduce阶段。需要根据不同的质心执行多次,直至其收敛(多次迭代相同的 MapReduce 作业后找到最优的簇)1.2 什么是聚类?基本来说,给定K > 0, (这里K 是簇数) 和一个集合(其中包括需要聚类的...原创 2019-01-13 15:24:02 · 478 阅读 · 0 评论 -
《Data Algorithm》读书笔记十一— 使用马尔科夫模型的智能邮件营销
###《Data Algorithm》读书笔记十一—— 使用马尔科夫模型的智能邮件营销【updating…】根据顾客的交易历史观测“下一个智能邮件营销日期”。【智能邮件营销指的是,智能产品推广邮件。】基于机器学习的解决方案包括两个不同的阶段:01.使用历史训练数据建立一个模型02.使用阶段1建立模型对新数据做出预测马尔科夫性质:系统在时间t+1 的状态只基于系统在时间t的状态一阶马...原创 2019-01-12 11:01:40 · 566 阅读 · 3 评论 -
《Data Algorithm》读书笔记之十 —— 基于内容的电影推荐
《Data Algorithm》读书笔记之十 —— 基于内容的电影推荐Edwin Chen blog关联度1.对于每一个电影A 和B,找出同时对A 和B 评分的所有人。2.用评分建立一个电影A向量和一个电影B向量3.计算这两个向量之间的关联度(关联度是一种度量两个电影关联或相关程度的方法)4.只要一个人看过一个电影,就可以推荐与这个电影关联度最高的电影MapReduce step 1...原创 2019-01-11 18:38:09 · 811 阅读 · 0 评论 -
《Data Algorithm》读书笔记之九 —— 使用MapReduce实现推荐引擎
《Data Algorithm》读书笔记之九 — 使用MapReduce实现推荐引擎帮助用户查找信息减少搜索和导航时间提高用户满意度购买过该商品的顾客还购买了哪些商品?( CWBTIAB)可以通过之前的代码来实现这个内容top10购物篮分析共同好友 等等输入每个销售记录包含一个 user_id, bought_item 。只要显示一个商品, 电商就会推荐购买过这个商品的用户最常...原创 2019-01-11 15:21:36 · 465 阅读 · 0 评论 -
《Data Algorithm》读书笔记之八 — 共同好友
###《Data Algorithm》读书笔记之八 —— 共同好友【updating…】1. 需求2.实现思路在所有的用户对中找出共同好友。令U为包含所有用户的一个集合:{U1,U2…Un},目标是为每个(Ui,Uj)(i!=j)对 找出共同好友。解决方案有如下几种:01.MapReduce/Hadoop,使用基本数据类型02.MapReduce/hadoop,使用定制数据类型好友...原创 2019-01-11 14:23:23 · 421 阅读 · 0 评论 -
《Data Algorithm》读书笔记六 — 移动平均
《Data Algorithm》读书笔记六 — 移动平均【updating…】在谈移动平均之前,首先需要理解时间序列数据。1.时间序列数据时间序列数据表示一个变量在一段时间内的值。可以不太严格的把时间序列数据形式化表示为三元组序列:(k,t,v)一般的,只要在一段时间内记录相同的度量值,就会得到时间序列数据。多个连续周期的时间序列数据平均值称为移动平均。移动的意思是:随着新的时间序列数...原创 2019-01-10 21:17:22 · 461 阅读 · 0 评论 -
《Data Algorithm》读书笔记七 — 购物篮分析
###《Data Algorithm》读书笔记七 — 购物篮分析购物篮分析(Market Basket Analysis,MBA)购物篮分析可以帮助我们找出很可能会一起购买的商品,关联规则挖掘会发现一个交易集中商品之间的相关性。为购物篮分析挖掘关联规则时,要找出频繁商品集,这是一个计算密集型问题,非常适合使用MapReduce解决。查找购物篮中最常出现的N 阶商品TupleN(N =1,2...原创 2019-01-10 21:11:33 · 721 阅读 · 0 评论