训练集和测试集(验证集)划分

注意: (1)测试集是用来测试学习器对新样本的判别能力,用测试误差作为泛化误差的近似值。 (2)测试集应该和训练集互斥,集测试样本尽量不要出现在训练集中。用来测试模型的泛化能力。 一,搞清楚训练集,验证集,测试集,训练数据和测试数据的区别 二,训练集和测试集(验证集)划分 2.1...

2019-06-17 11:54:06

阅读数 15

评论数 0

信息增益与特征选择

一定要先搞清楚什么是信息量,什么是信息熵。参考博文:https://blog.csdn.net/u010916338/article/details/91127242 转载博文:https://blog.csdn.net/it_beecoder/article/details/79554388 ...

2019-06-11 14:58:32

阅读数 89

评论数 1

yarn

转载地址: https://blog.csdn.net/qq_33624952/article/details/79341034 https://blog.csdn.net/liuwenbo0920/article/details/43304243 一,什么是yarn? Apache ...

2019-06-10 15:45:47

阅读数 20

评论数 0

kafka

一,简介 Kafka 是分布式发布-订阅消息系统。 它最初由 LinkedIn 公司开发,使用 Scala语言编写,之后成为 Apache 项目的一部分。 二,producer(生产者) 和consumer(消费者) 发送消息者称为Producer。消息接收者成为Consumer。 ...

2019-06-09 22:41:13

阅读数 13

评论数 0

信息量与信息熵

如果看不懂博文,请阅读《信息论基础》一看便懂。 链接:https://pan.baidu.com/s/1T7rS4owM2nU_DP6rthqUPA 提取码:zu9s (1)消息 消息是实体,信息是抽象的。可以从消息中获取信息。消息的表现形式可以是:语言,符号,文字,图片 (2)信息 信...

2019-06-07 14:13:33

阅读数 23

评论数 0

凹函数和凸函数

同济高数上册,第三章,第四节,p147 切勿把定义看死了!!! 真实的情况是:向上凸的就是向下凹的,向上凹的就是向下凸的。教材中选定了向上为正方向,所以要辩证的来看定义。 ...

2019-06-05 17:20:50

阅读数 17

评论数 0

matplotlib绘图中文乱码

Matplotlib 默认情况不支持中文 https://blog.csdn.net/u014465934/article/details/80377470 https://www.fontpalace.com/font-details/SimHei/

2019-05-25 15:24:42

阅读数 11

评论数 1

估计量,估计值

2019-05-20 07:21:46

阅读数 26

评论数 1

MapReduce执行流程

首先,网上很多解析必然会贴出来如下所示的一张图,但是图中隐藏了诸多信息。 1,inputsplit有多大,与hdfs文件切块有什么关系? 首先,hadoop2.0的hdfs文件切块是128M,这是定死的,称为物理切块。 inputsplit默认也是128M和hdfs文件切块保大小持一致,称为...

2019-05-19 22:30:06

阅读数 21

评论数 1

hive内表和外表

真实数据和元数据区分参考博文:https://blog.csdn.net/u010916338/article/details/90247121 一,内表 1,真实数据存放在hdfs上。 2,真实数据存放在hive默认创建的路径下。 如图所示stu就是内表。 3,内表一般都是先创建表...

2019-05-15 23:45:28

阅读数 26

评论数 1

hive解析

1,hive其实是在MapReduce上包了一层壳,hql语句最终还是翻译成MapReduce任务运行。 2,真实数据还是存放在hdfs上。 3,hive默认将元数据信息放到Derby数据库中,现实中我们喜欢放到mysql中。 如何理解元数据呢?可以理解成真实数据的路径,如上图所示如果找...

2019-05-15 23:20:49

阅读数 8

评论数 0

There are 0 datanode(s) running and no node(s) are excluded in this operation.

可能是由于执行两次hadoop namenode -format格式化造成的。 措施: 删除掉生成的current文件夹,最好将datanode和namenode文件夹中的current都删除。注意每个人配置的路径不同,如果查阅不到请到配置文件hdfs-site.xml中查找。 &l...

2019-05-15 17:36:52

阅读数 13

评论数 1

error: Microsoft Visual C++ 14.0 is required

下载安装即可 链接:https://pan.baidu.com/s/1-G4t_MklKrE2blSoCZ5hRQ 提取码:tp5p

2019-05-07 22:41:42

阅读数 38

评论数 1

Uncaught ReferenceError: jQuery is not defined

参考博文:https://cloud.tencent.com/developer/article/1140276 1,检查是否引入了jQuery.mini.js 2,文件加载的顺序不对,把jQuery文件最好写在所有script文件前面 3,包括两个不同版本的jQuery UI。这可能会...

2019-05-05 22:44:16

阅读数 13

评论数 1

idea发布web项目到Tomcat

注:如果随意改动发布项目名,会导致项目路径错误,项目无法访问,或者静态资源无法加载!!!具体案例请参考博文:https://blog.csdn.net/u010916338/article/details/89854038 ...

2019-05-05 20:23:40

阅读数 62

评论数 0

HTTP404: 找不到 - 服务器尚未找到与请求的 URI (统一资源标识符)匹配的任何内容。

1,检查web.xml是否配置了拦截全部请求 <servlet-mapping> <servlet-name>springmvc</servlet-name> <!-- 拦截器...

2019-05-05 20:14:46

阅读数 333

评论数 1

Error: JAVA_HOME is incorrectly set. Please update D:\skill\hadoop-2.7.1\conf\hadoop-env.cmd

1,检查Java -version正常显示 2,检查hadoop系统环境变量配置HADOOP_HOME和PATH 3,如果Java安装在c盘的默认路径下,没有修改过。 那么将hadoop-2.7.1\etc\hadoop\hadoop-env.cmd文件中的 set JAVA_...

2019-05-05 10:26:32

阅读数 81

评论数 0

Java增量写入字符串到hdfs

<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <art...

2019-05-04 22:43:38

阅读数 13

评论数 0

idea总是变成insert状态

file -> settings ->Plugins 然后再右边搜索框输入IdeaVim,出来结果后将后面复选框中得勾去掉就可以了

2019-05-03 09:27:45

阅读数 17

评论数 0

Scala项目打包

修改后再打包,会有异常:E:/IdeaWorkspace/Dataclean/src/main/scala/META-INF/MANIFEST.MF' already exists in VFS 删除上图中的META-INF和out文件再重新打包就OK了。 ...

2019-05-02 22:55:20

阅读数 22

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭