cold冷星辰的博客

专注于数据挖掘、大数据、机器学习相关算法与工程

kaggle房价预测最热解析

1.异常值可以删除,但也要留一些,因为测试集里也有异常值,留一些异常值可以让模型更鲁棒。 2.主要用fillna来填充缺失值 3.stacking方法在处理这个问题有很好的帮助,可以用ENet,GBoost,KRR,lasso这四个模型stacking一下。 首先是普通的平均stacking...

2019-04-24 19:36:31

阅读数 1

评论数 0

kaggle中的房价预测的一些数据分析方法详解

1.查看某些属性值与预测标签值的关联度 可以看出属性GrLivArea与SalePrice基本是正相关的关系。 TotalBsmtSF的系数比上一个更大一些 2.查看类别属性与salesprice的关系 可以看出,overallQual的类别数越大,saleprice也明显...

2019-04-23 17:25:17

阅读数 6

评论数 0

kaggle房价预测(House Prices: Advanced Regression Techniques)详解

这几天做kaggle上的房价预测题目,有一些需要记录的点。 1.当数据是skew的时候需要进行log操作,比如这里的房价 之后可以把所有偏度大于一个阈值的都log化,至于偏度相关的知识,请看https://blog.csdn.net/qq_32146369/article/details/...

2019-04-20 22:55:19

阅读数 15

评论数 0

偏度

偏度公式如下: 现在想解决如何从图像上解决为正为负的问题,如图所示: 个人理解:偏度中的偏是针对变量相对于中心点(期望值)距离的一种描述;如果厚尾的话,就说明有很多点距离中心点比较远,如上图中的负偏度如果不看厚尾,仅看靠近中心点的两侧,很显然右侧相对左侧,更多的点集中在中心点附近,换句...

2019-04-19 17:43:11

阅读数 23

评论数 0

威斯康星大学乳腺癌肿瘤数据预测分类代码讲解

2019-04-15 13:25:01

阅读数 59

评论数 0

sklearn中的Linear_model的score函数讲解

注意这里的X是test集中的属性,y是test集中的标签(而不是预测出的结果!!!)

2019-04-15 13:13:24

阅读数 65

评论数 0

sklearn中的train_test_split函数

train_test_split函数用于将数据集随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。 X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train...

2019-04-15 12:03:41

阅读数 19

评论数 0

程序员面试-并发大数据分布式

并发编程 多任务 同步编程原语 volatile关键字 大数据 hadoop包含组件及功能 Map/Reduce相关名词解释 WordCount流程示意图 分布式 分布式存储架构设计(以TFS为例) 消息中间件 ...

2019-04-15 10:16:04

阅读数 62

评论数 0

大数据Hive深入讲解

大数据 Hive简介,Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。 Hive组件 Hive安装 编辑hive-site.xml cp conf/hive-default.xml.template conf/hive-site.xml • 配置hiv...

2019-04-15 10:15:17

阅读数 39

评论数 0

jvm入门到详解-1

JVM需要对Java Library 提供以下支持: –反射 java.lang.reflect –ClassLoader –初始化class和interface –安全相关 java.security –多线程 –弱引用 JVM启动流程 JVM基本结构 栈、堆、方法区交...

2019-04-14 13:15:13

阅读数 19

评论数 0

HBase入门

HBASE是一个数据库----可以提供数据的实时随机读写 HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库) Hbase的表模型与关系型数据库的表模型不同: Hbase的表没有固定的字段定义; Hbase的表中每行...

2019-04-14 12:54:52

阅读数 74

评论数 0

zookeeper详解

zookeeper的基本功能和应用场景 zookeeper的整体运行机制 zookeeper的数据存储机制 zookeeper中对用户的数据采用kv形式存储 只是zk有点特别: key:是以路径的形式表示的,那就以为着,各key之间有父子关系,比如 / 是顶层key 用户建的...

2019-04-14 12:44:49

阅读数 50

评论数 0

yarn深入理解

yarn的基本概念 yarn是一个分布式程序的运行调度平台 yarn中有两大核心角色: Resource Manager 接受用户提交的分布式计算程序,并为其划分资源 管理、监控各个Node Manager上的资源情况,以便于均衡负载 2.Node Manager 管理它所在机器的...

2019-04-14 12:36:18

阅读数 24

评论数 0

Spark-on-YARN

官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 配置安装 安装hadoop:需要安装HDFS模块和YARN模块,HDFS必须安装,spark运行时要把jar包存放到HDFS上。 安装Spark:解压Spark安...

2019-04-14 12:30:38

阅读数 82

评论数 0

Spark集群安装

准备两台以上Linux服务器,安装好JDK 上传spark-安装包到Linux上 解压安装包到指定位置 进入到Spark安装目录 进入conf目录并重命名并修改spark-env.sh.template文件 在该配置文件中添加如下配置 export JAVA_HOME=/us...

2019-04-14 12:16:10

阅读数 23

评论数 0

Spark简介

什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkS...

2019-04-14 12:08:48

阅读数 66

评论数 0

Mybatis框架相关知识讲解

JAVAEE开发的三剑客:三大框架 Mybatis:封装jdbc访问代码的一个框架 (hibernate) ORM对象关系映射 Spring MVC:用来封装servlet编程的一个框架(struts2) Spring:体系整合框架,其他框架的粘合剂; 什么是框架: 框架(Framewo...

2019-04-14 10:33:15

阅读数 21

评论数 0

安装hdfs集群的具体步骤

一、首先需要准备N台linux服务器 学习阶段,用虚拟机即可! 先准备4台虚拟机:1个namenode节点 + 3 个datanode 节点 二、修改各台机器的主机名和ip地址 主机名:hdp-01 对应的ip地址:192.168.33.61 主机名:hdp-02 对应的ip地址:192...

2019-04-14 10:05:44

阅读数 20

评论数 0

大数据Hadoop原理学习(HDFS,MAPREDUCE,YARN)

hadoop hadoop中有3个核心组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源 ...

2019-04-14 10:03:53

阅读数 80

评论数 0

原生xgboost与sklearn里的xgboost

要知道现在有两个主要的xgboost来源,一个是原生xgboost,另一个是sklearn里的xgboost,先开一篇,等有时间写

2019-04-12 23:10:39

阅读数 22

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭