自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 PySpark推荐引擎

PySpark推荐引擎任务目标1、了解推荐引擎2、掌握Spark MLlib ALS推荐算法相关知识推荐引擎是最常见的机器学习应用,我们可以在各大购物网站上看见这方面的应用。Spark MLlib支持ALS(Alternating Least Squares)推荐算法,是机器学习的协同过滤推荐算法。机器学习的协同过滤推荐算法通过观察所有用户给产品的评价来推断每个用户的喜好,...

2019-11-30 01:58:11 660 1

原创 PySpark处理数据并图表分析

PySpark处理数据并图表分析任务目标1.学习PySpark的一些算子2.结合Python的一些包进行图表分析相关知识PySpark 是 Spark 为 Python 开发者提供的 API ,位于 $SPARK_HOME/bin 目录,其依赖于 Py4J。大体用下面这张图来表示PySpark的实现机制:在python driver端,SparkContext利用Py4...

2019-11-30 01:53:45 540

原创 SparkSQL,创建表,查询数据,加载文件,处理文件,存储文件

实验思路:在Linux上,创建/data/sparkshell目录,用于存储实验所需的数据。 切换目录到/data/sparkshell下,并从指定网址下载buyer_favorite文件。 使用jps查看Hadoop以及Spark的相关进程是否已经启动,若未启动则执行启动命令。 将Linux本地/data/sparkshell/buyer_favorite文件,上传到HDFS上的/my...

2019-11-30 01:49:07 2511

原创 最优路径算法(python)

最优路径算法(python实现)从图中的某个顶点出发到达另外一个顶点的所经过的边的权重和最小的一条路径,称为最短路径主要的最优(最短)路径算法:一、深度优先算法;二、广度优先算法;三、Dijstra最短路径;四、floyd最短路径深度优先算法图的深度优先搜索(Depth First Search),和树的先序遍历比较类似。它的思想:假设初始状态是图中所有顶点均未被访问,则从某个顶点v出...

2019-11-30 01:02:16 22586

原创 Hbase过滤器

1.比较过滤器:(1)RowFilter(行过滤器)行过滤器是基于行键来过滤数据。(2)FamilyFilter(列族过滤器)列族过滤器是基于列族来进行过滤数据。(3)QualifierFilter(列名过滤器)列名过滤器用户筛选特定的列。(4)ValueFilter(值过滤器)值过滤器用户筛选某个特定值的单元格。与RegexStringComparator配合使用,可以使用功能强...

2019-11-30 00:51:55 976

原创 HBase Shell操作

HBase Shell操作1.首先,我们切换到/apps/hadoop/sbin目录下,开启hadoop相关进程cd/apps/hadoop/sbin ./start-all.sh2.然后切换到/apps/hbase/bin目录下,开启hbase相关进程view plaincopycd/apps/hbase/bin ./start-hbase.sh3....

2019-11-30 00:40:33 334

原创 Hadoop MapReduce WordCount

任务目标1.准确理解Mapreduce的设计原理2.熟练掌握WordCount程序代码编写3.学会自己编写WordCount程序进行词频统计相关知识MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单来说,MapReduce就是”任务的分解与结果的汇总“。1.Ma...

2019-11-30 00:31:12 287

原创 spark shell的词频统计,去重,排序及合并 (嚯啊嚯)

Spark技术RDD算子spark-shell基础操作wordcount统计去重distinct排序sortByKey合并joinRDD算子RDD有两种类型的操作 ,分别是Transformation(返回一个新的RDD)和Action(返回values)。1.Transformation:根据已有RDD创建新的RDD数据集build(1)map(func):对调用map的RDD数据集中的...

2019-11-29 12:16:19 3061 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除