、北冥有鱼-CSDN博客

原创 jupyter notebook 500 : Internal Server Error

1、报错：jupyter notebook创建文件或者打开已有文件报如下的错误。错误信息表明缺少一个必要的文件 (：这将确保所有必要的文件都到位。2、原因：具体来说是。如果已经安装了需要卸载。

2024-07-28 17:40:36 816 1

原创机器学习-风险函数、经验风险

通过这个例子，我们可以看到如何从已知数据分布计算期望风险。虽然在实际问题中，数据的真实分布通常是未知的，我们无法直接计算期望风险，但可以通过理论分析和假设模型对数据分布的近似来理解期望风险的意义。最小化期望风险是机器学习模型训练的理想目标，而经验风险最小化是实现这个目标的一种近似方法。

2024-06-03 18:26:30 1267

参数调优 1、map阶段数据压缩 set hive.exec.compress.intermediate=true set mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodec set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec; 2、对最终生...

2024-06-02 10:59:47 400 1

原创机器学习-损失函数

是一种常用的损失函数，特别是在分类问题中。它的定义非常简单：其中，是真实的类别标签，是模型预测的类别标签。对于单个样本，平方损失函数定义为：其中，是真实值，是预测值。对于单个样本，绝对损失函数定义为：其中，是真实值，是预测值。对于单个样本，对数损失函数定义为：其中，是真实标签，取值为0或1；是模型预测为1的概率。

2024-06-01 21:34:58 1418 1

原创 1.Scala入门

文章目录Scala入门1. Scala语言诞生小故事2. Scala和 Java以及jvm的关系3. Scala 语言的特点4. Windows下搭建Scala开发环境5. Linux下搭建Scala开发环境Scala的REPL6. Scala 开发工具的介绍7. Scala程序反编译-说明Scala程序的执行流程HelloScalaHelloScala$8. Scala 程序开发注意事项(重点)9. Scala语言输出的三种方式10. Scala 源码的查看的关联11. 注释12. Scala编码风格正确

2022-02-11 14:11:17 2011

原创 Hive 总结

Hive 总结0.1 什么是hive1. Hive：由Facebook开源用于解决'海量结构化日志'的数据统计'工具'。2. Hive是基于Hadoop的一个'数据仓库工具'，可以将结构化的数据文件'映射'为一张表，并提供类SQL查询功能。3. '本质'：将HQL转化成MapReduce程序4. '原理介绍' （1）Hive处理的数据存储在HDFS （2）Hive分析数据底层的实现是MapReduce （3）执行程序运行在Yarn上0.2 优缺点-- 1. 优点：

2021-11-25 00:10:26 855 1

原创 Flink核心编程

Flink核心编程1、Environment Flink Job在提交执行计算时，需要首先建立和Flink框架之间的联系，也就指的是当前的flink运行环境，只有获取了环境信息，才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单。批处理环境ExecutionEnvironment benv = ExecutionEnvironment.getExecutionEnvironment(); 流式数据处理环境StreamExecutionEnviron

2021-11-25 00:04:32 2326

原创 Hbase

1、Hbase简介 1、是什么? Hbase是分布式的存储海量数据的NoSql数据库 2、场景: 实时场景 3、Hbase数据模型: Table: 数据存储的形式列簇: Hbase的表结构，一般在创建表的时候指定 rowkey：数据的主键,数据在hbase中是按照rowkey字典序进行排序列限定符: 类似mysql的字段 region: table的一个分段 store...

2021-11-25 00:00:15 2954

原创 scala学习

scala省略原则：1、当调用对象的方法时，点.可以省略2、如果函数参数只有一个，或者没有参数，()可以省略3、如果if代码只有一行，那么可以省略花括号scala1、scala源码中包含了main方法，在编译自动形成了public static void main2、scala在编译源码时，会生成两个字节码文件，静态main方法执行另外一个字节码文件中的成员main方法3、Scala是完全面向对象的语言，那么没有静态的语法，只能通过模拟生成静态方法4、编译时将当前类生成一个特殊的类 ==》S

2021-11-24 23:57:20 577

原创大数据之Hive简介

Hive基本概念1.1什么是Hive1）hive简介 Hive:由facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。2）Hive本质：将HQL转化成MapReduce程序（1）Hive处理的数据存储在HDFS （2）Hive分析数据底层的实现是MapReduce （3）执行程序运行在Yarn上1.2Hive的优缺点...

2020-08-20 11:01:41 462

原创大数据Hadoop之HDFS概述

HDFS概述1.1 HDFS产生及定义随着数据量越来越大，在一个操作系统存储不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2 HDFS定义HDFS(Hadoop Distnbuted File System),它是一个文件系统，用来存储文件，通过目录树来定位文件；其次，他是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDF

2020-08-13 16:52:58 209

原创大数据之Hadoop序列化

Hadoop序列化1.序列化的概述 1.1什么是序列化序列化就是把内存中的对象，转化成字节序列（或其他数据传输协议）以便用于存储到磁盘（持久化）和网络传输。反序列化就是将收到的字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。 1.2为什么要序列化一般来说，“活的”对象只生存在内存中，断电关机就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络 ...

2020-08-13 11:27:01 196

原创 20170517

1.HDOJ 2004 成绩转换/*#include int main(){int c;while(scanf("%d",&c)!=EOF)if((c>=0)&&(c{if(c>=90) printf("A\n");else if(c>=80) printf("B\n");else if(c>=70) printf("C\n");

2017-05-17 23:05:43 182

原创 20170516

1.HDOJ 2000 ASCII 码排序#include int main(void){ char a[3], temp; while(scanf("%c%c%c", &a[0], &a[1], &a[2]) != EOF) { if(a[0] > a[1]) { temp = a[0]; a[0] = a[1]; a[1] =

2017-05-17 16:46:21 218

原创 20170515

1.HDOJ 1000 Calculate A+B;#include int main(){int a,b;while(scanf("%d%d",&a,&b)!=EOF)printf("%d\n",a+b);return 0;}2.HDOJ 1001 sum Problem#include int main(){int i,n,sum;whi

2017-05-15 22:34:27 182