大数据
文章平均质量分 97
Thomson617
岁月静好,仍需负重前行!
向着未来努力奔跑,奋斗之年永不停歇!
展开
-
Spark Machine Learning(SparkML):机器学习(部分三)
8.协同过滤(Collaborative Filtering)协同过滤是一种推荐算法,根据用户对物品的偏好构建稀缺矩阵,并计算其对其他物品的喜好程度,通常用于推荐系统。这些技术旨在填写用户项关联矩阵的缺失条目。spark.ml目前支持基于模型的协同过滤,其中用户和产品由可用于预测缺失条目的一小组潜在因素描述。spark.ml使用交替最小二乘(ALS)算法来学习这些潜在因素。实现中spark.ml包含以下参数:(1).numBlocks是用户和项目将被分区为多个块的数量,以便并行化计算(默...原创 2020-09-09 14:26:06 · 3408 阅读 · 0 评论 -
Spark Machine Learning(SparkML):机器学习(部分二)
6.分类和回归分类与回归都是有监督学习,本质是一样的,都是特征(feature)到结果/标签(label)之间的映射,只不过分类的结果是离散值,回归是连续的。区分分类任务和回归任务有一个简单方法,就是问一个问题:输出是否具有某种连续性。如果在可能的结果之间具有连续性,那么它就是一个回归问题。6.1分类(Classification)分类问题的目标是预测类别标签(class label),这些标签来自预定义的可选列表。分类问题有时可分为二分类(binary classification,在两个原创 2020-09-08 11:17:13 · 2601 阅读 · 0 评论 -
Spark Machine Learning(SparkML):机器学习(部分一)
机器学习是现阶段实现人工智能应用的主要方法,它广泛应用于机器视觉、语音识别、自然语言处理、数据挖掘等领域。MLlib是Apache Spark的可伸缩机器学习库。官网地址:[http://spark.apache.org/docs/latest/ml-guide.html]Spark的机器学习(ML)库提供了许多分布式ML算法。这些算法包括特征选取、分类、回归、聚类、推荐等任务。ML还提供了用于构建工作流的ML管道、用于调优参数的交叉验证器以及用于保存和加载模型的模型持久性等工具。其目标是使实用的机器学原创 2020-09-04 12:19:18 · 9496 阅读 · 0 评论 -
Sqoop数据迁移指南
Sqoop是一个用来将Hadoop(hdfs/hive/hbase)和关系型数据库(如MySQL,Oracle,SQL SERVER,Postgres等)中的数据相互转移的工具,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop命令分四大类:(1).sqoop import 导入(2).sqoop import-all-ta...原创 2019-07-11 13:57:47 · 1438 阅读 · 0 评论 -
Shell脚本--删除文件中所有以指定字符开头的行
删除日志文件中以WARN开头的行:cat /root/filename | sed -e '/^WARN:/d' > /root/filenamecat:查看文件/root/filename:文件名| :管道符sed:在sed处理文件的时候,每一行都被保存在一个叫模式空间的临时缓冲区中,除非行被删除或者输出被取消,否则所有被处理的行都将打印在屏幕上。接着模式空间被清空,并存入新的...原创 2019-03-04 10:39:30 · 9777 阅读 · 7 评论 -
MySQL、Oracle、Sql Server、Hive、Spark SQL、Flink SQL总结
本文主要讲解各类SQL语言的优缺点、数据类型及SQL语法的区别,其它区别可参加各官网MySQL官网地址:https://dev.mysql.com/doc/refman/8.0/en/programs.html优点:(1).体积小、速度快、总体拥有成本低,支持多种操作系统,使用简单,开放源码,稳定性高;(2).提供的接口支持多种语言连接操作。可以工作在不同的平台上。支持C、C++、Jav...原创 2019-02-20 17:19:25 · 5728 阅读 · 0 评论 -
Spark SQL 的数据加载与保存(load , save)
Spark SQL主要是操作DataFrame,DataFrame本身提供了save和load的操作.Load:可以创建DataFrame;Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。SparkSQL的保存模式 * SaveMode.ErrorIfExist ----->default...原创 2018-11-17 23:29:09 · 2248 阅读 · 0 评论 -
Hive SQL进阶练习(HQL)
一.数据准备(4表联查)1.创建车辆信息表:create external table car( car_id string comment '车辆ID', customer_id string comment '客户ID', car_brand string comment '车辆品牌', car_serial string comment '车辆系列', yearcheck_dt...原创 2019-02-27 18:43:21 · 3786 阅读 · 1 评论 -
Json解析(Json集合,Json嵌套)
导入maven依赖:<dependency> <groupId>net.sf.json-lib</groupId> <artifactId>json-lib</artifactId> <version>2.4</version> <cl原创 2018-12-02 16:15:15 · 15668 阅读 · 0 评论 -
Hive sql语句必练50题-入门到精通(3)
承接: Hive sql语句必练50题-入门到精通(2)– 36、查询任何一门课程成绩在70分以上的学生姓名、课程名称和分数:select student.s_id,s_name,c_name,s_score from scorejoin student on student.s_id=score.s_idjoin course on score.c_id=course.c_idwhe...原创 2018-10-23 00:50:59 · 4393 阅读 · 24 评论 -
Hive sql语句必练50题-入门到精通(1)
hive学习之经典sql 50题 hive版建表:create table student(s_id string,s_name string,s_birth string,s_sex string) row format delimited fields terminated by ‘\t’;create table course(c_id string,c_name string,t_i...原创 2018-10-20 12:22:19 · 24780 阅读 · 29 评论 -
Hive sql语句必练50题-入门到精通(2)
承接: Hive sql语句必练50题-入门到精通(1)– 21、查询不同老师所教不同课程平均分从高到低显示:– 方法1select course.c_id,course.t_id,t_name,round(avg(s_score),2)as avgscore from course join teacher on teacher.t_id=course.t_id jo...原创 2018-10-22 23:08:54 · 5794 阅读 · 13 评论 -
hadoop三种启动方式
第一种方式(推荐)启动:分别启动HDFS和MapReduce命令如下:start-dfs.sh start-mapreted.sh命令如下:stop-dfs.sh stop-mapreted.sh第二种方式全部启动或者全部停止启动:命令:start-all.sh启动顺序:NameNode,DateNode,SecondaryNameNode,JobTracker,TaskTrac...原创 2018-10-18 09:53:06 · 2320 阅读 · 0 评论