自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 机器学习-风险函数、经验风险

通过这个例子,我们可以看到如何从已知数据分布计算期望风险。虽然在实际问题中,数据的真实分布通常是未知的,我们无法直接计算期望风险,但可以通过理论分析和假设模型对数据分布的近似来理解期望风险的意义。最小化期望风险是机器学习模型训练的理想目标,而经验风险最小化是实现这个目标的一种近似方法。

2024-06-03 18:26:30 713

原创 hive调优

参数调优 1、map阶段数据压缩 set hive.exec.compress.intermediate=true set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec; 2、对最终生...

2024-06-02 10:59:47 357 1

原创 机器学习-损失函数

是一种常用的损失函数,特别是在分类问题中。它的定义非常简单:其中,是真实的类别标签,​ 是模型预测的类别标签。对于单个样本,平方损失函数定义为:其中,是真实值,​ 是预测值。对于单个样本,绝对损失函数定义为:其中,是真实值,是预测值。对于单个样本,对数损失函数定义为:其中,是真实标签,取值为0或1;是模型预测为1的概率。

2024-06-01 21:34:58 732

原创 1.Scala入门

文章目录Scala入门1. Scala语言诞生小故事2. Scala和 Java以及jvm的关系3. Scala 语言的特点4. Windows下搭建Scala开发环境5. Linux下搭建Scala开发环境Scala的REPL6. Scala 开发工具的介绍7. Scala程序反编译-说明Scala程序的执行流程HelloScalaHelloScala$8. Scala 程序开发注意事项(重点)9. Scala语言输出的三种方式10. Scala 源码的查看的关联11. 注释12. Scala编码风格正确

2022-02-11 14:11:17 791

原创 Hive 总结

Hive 总结0.1 什么是hive1. Hive:由Facebook开源用于解决'海量结构化日志'的数据统计'工具'。2. Hive是基于Hadoop的一个'数据仓库工具',可以将结构化的数据文件'映射'为一张表,并提供类SQL查询功能。3. '本质':将HQL转化成MapReduce程序4. '原理介绍' (1)Hive处理的数据存储在HDFS (2)Hive分析数据底层的实现是MapReduce (3)执行程序运行在Yarn上0.2 优缺点-- 1. 优点:

2021-11-25 00:10:26 743 1

原创 Flink核心编程

Flink核心编程1、Environment​ Flink Job在提交执行计算时,需要首先建立和Flink框架之间的联系,也就指的是当前的flink运行环境,只有获取了环境信息,才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单。批处理环境ExecutionEnvironment benv = ExecutionEnvironment.getExecutionEnvironment();​ 流式数据处理环境StreamExecutionEnviron

2021-11-25 00:04:32 1595

原创 Hbase

1、Hbase简介 1、是什么? Hbase是分布式的存储海量数据的NoSql数据库 2、场景: 实时场景 3、Hbase数据模型: Table: 数据存储的形式 列簇: Hbase的表结构,一般在创建表的时候指定 rowkey:数据的主键,数据在hbase中是按照rowkey字典序进行排序 列限定符: 类似mysql的字段 region: table的一个分段 store...

2021-11-25 00:00:15 2574

原创 scala学习

scala省略原则:1、当调用对象的方法时,点.可以省略2、如果函数参数只有一个,或者没有参数,()可以省略3、如果if代码只有一行,那么可以省略花括号scala1、scala源码中包含了main方法,在编译自动形成了public static void main2、scala在编译源码时,会生成两个字节码文件,静态main方法执行另外一个字节码文件中的成员main方法3、Scala是完全面向对象的语言,那么没有静态的语法,只能通过模拟生成静态方法4、编译时将当前类生成一个特殊的类 ==》S

2021-11-24 23:57:20 511

原创 大数据之Hive简介

Hive基本概念1.1什么是Hive1)hive简介 Hive:由facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。2)Hive本质:将HQL转化成MapReduce程序 (1)Hive处理的数据存储在HDFS (2)Hive分析数据底层的实现是MapReduce (3)执行程序运行在Yarn上1.2Hive的优缺点...

2020-08-20 11:01:41 382

原创 大数据Hadoop之HDFS概述

HDFS概述1.1 HDFS产生及定义随着数据量越来越大,在一个操作系统存储不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS定义HDFS(Hadoop Distnbuted File System),它是一个文件系统,用来存储文件,通过目录树来定位文件;其次,他是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDF

2020-08-13 16:52:58 170

原创 大数据之Hadoop序列化

Hadoop序列化1.序列化的概述 1.1什么是序列化 序列化就是把内存中的对象,转化成字节序列(或其他数据传输协议)以便用于存储到磁盘(持久化)和网络传输。 反序列化就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。 1.2为什么要序列化 一般来说,“活的”对象只生存在内存中,断电关机就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络 ...

2020-08-13 11:27:01 157

原创 20170517

1.HDOJ 2004 成绩转换/*#include int main(){int c;while(scanf("%d",&c)!=EOF)if((c>=0)&&(c{if(c>=90) printf("A\n");else if(c>=80) printf("B\n");else if(c>=70) printf("C\n");

2017-05-17 23:05:43 148

原创 20170516

1.HDOJ 2000 ASCII 码排序#include int main(void){ char a[3], temp;    while(scanf("%c%c%c", &a[0], &a[1], &a[2]) != EOF) {  if(a[0] > a[1])  {   temp = a[0];   a[0] = a[1];   a[1] =

2017-05-17 16:46:21 193

原创 20170515

1.HDOJ 1000 Calculate A+B;#include int main(){int a,b;while(scanf("%d%d",&a,&b)!=EOF)printf("%d\n",a+b);return 0;}2.HDOJ 1001 sum Problem#include int main(){int i,n,sum;whi

2017-05-15 22:34:27 150

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除