2019年04月_水木流年追梦

原创 kaggle房价预测最热解析

1.异常值可以删除，但也要留一些，因为测试集里也有异常值，留一些异常值可以让模型更鲁棒。2.主要用fillna来填充缺失值3.stacking方法在处理这个问题有很好的帮助，可以用ENet，GBoost,KRR,lasso这四个模型stacking一下。首先是普通的平均stacking与此同时的Enet,GBoost,KRR,lasso四个模型的效果如下：然...

2019-04-24 19:36:31 369

原创 kaggle中的房价预测的一些数据分析方法详解

1.查看某些属性值与预测标签值的关联度可以看出属性GrLivArea与SalePrice基本是正相关的关系。TotalBsmtSF的系数比上一个更大一些2.查看类别属性与salesprice的关系可以看出，overallQual的类别数越大，saleprice也明显越高虽然无法完全看出关系，但可以看出salesprice随着年份越新，售价存在逐渐提高的现象...

2019-04-23 17:25:17 2067

原创 kaggle房价预测（House Prices: Advanced Regression Techniques）详解

这几天做kaggle上的房价预测题目，有一些需要记录的点。1.当数据是skew的时候需要进行log操作,比如这里的房价之后可以把所有偏度大于一个阈值的都log化，至于偏度相关的知识，请看https://blog.csdn.net/qq_32146369/article/details/894051642.类别向量向量化类似于变成3.可以用平均值把空缺处填满...

2019-04-20 22:55:19 2845 1

原创偏度

偏度公式如下：现在想解决如何从图像上解决为正为负的问题，如图所示：个人理解：偏度中的偏是针对变量相对于中心点（期望值）距离的一种描述；如果厚尾的话，就说明有很多点距离中心点比较远，如上图中的负偏度如果不看厚尾，仅看靠近中心点的两侧，很显然右侧相对左侧，更多的点集中在中心点附近，换句话说，左侧更多的点集中在更远更偏的地方；通过三阶中心矩公式，左侧计算的偏离程度均为负值，大于右侧计算...

2019-04-19 17:43:11 4213

原创 sklearn中的Linear_model的score函数讲解

注意这里的X是test集中的属性，y是test集中的标签（而不是预测出的结果！！！）

2019-04-15 13:13:24 15577

原创 sklearn中的train_test_split函数

train_test_split函数用于将数据集随机划分为训练子集和测试子集，并返回划分好的训练集测试集样本和训练集测试集标签。X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)参数解释：t...

2019-04-15 12:03:41 789

原创程序员面试-并发大数据分布式

并发编程多任务同步编程原语volatile关键字大数据hadoop包含组件及功能Map/Reduce相关名词解释WordCount流程示意图分布式分布式存储架构设计（以TFS为例）消息中间件...

2019-04-15 10:16:04 359

原创大数据Hive深入讲解

大数据Hive简介，Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。Hive组件Hive安装编辑hive-site.xmlcp conf/hive-default.xml.template conf/hive-site.xml• 配置hive的log4j: cp conf/hive-log4j.properties.template co...

2019-04-15 10:15:17 412

原创 jvm入门到详解-1

JVM需要对Java Library 提供以下支持：–反射 java.lang.reflect–ClassLoader–初始化class和interface–安全相关 java.security–多线程–弱引用JVM启动流程JVM基本结构栈、堆、方法区交互public class AppMain //运行时, jvm 把appmain的信息都放...

2019-04-14 13:15:13 276

原创 HBase入门

HBASE是一个数据库----可以提供数据的实时随机读写HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同，它是一个NoSQL数据库（非关系型数据库）Hbase的表模型与关系型数据库的表模型不同： Hbase的表没有固定的字段定义； Hbase的表中每行存储的都是一些key-value对 Hbase的表中有列族的划分，用户可以指定将哪些kv插入哪个列族...

2019-04-14 12:54:52 408

原创 zookeeper详解

zookeeper的基本功能和应用场景zookeeper的整体运行机制zookeeper的数据存储机制zookeeper中对用户的数据采用kv形式存储只是zk有点特别：key：是以路径的形式表示的，那就以为着，各key之间有父子关系，比如/ 是顶层key用户建的key只能在/ 下作为子节点，比如建一个key： /aa 这个key可以带value数据也可以...

2019-04-14 12:44:49 375

原创 yarn深入理解

yarn的基本概念yarn是一个分布式程序的运行调度平台yarn中有两大核心角色：Resource Manager接受用户提交的分布式计算程序，并为其划分资源管理、监控各个Node Manager上的资源情况，以便于均衡负载 2.Node Manager管理它所在机器的运算资源（cpu + 内存）负责接受Resource Manager分配的任务，创建容...

2019-04-14 12:36:18 391

原创 Spark-on-YARN

官方文档http://spark.apache.org/docs/latest/running-on-yarn.html配置安装安装hadoop：需要安装HDFS模块和YARN模块，HDFS必须安装，spark运行时要把jar包存放到HDFS上。安装Spark：解压Spark安装程序到一台服务器上，修改spark-env.sh配置文件，spark程序将作为YARN的客户端用于...

2019-04-14 12:30:38 253

原创 Spark集群安装

准备两台以上Linux服务器，安装好JDK上传spark-安装包到Linux上解压安装包到指定位置进入到Spark安装目录进入conf目录并重命名并修改spark-env.sh.template文件在该配置文件中添加如下配置export JAVA_HOME=/usr/java/jdk1.8.0_111#export SPARK_MASTER_IP=node1...

2019-04-14 12:16:10 193

什么是sparkSpark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数...

2019-04-14 12:08:48 275

原创 Mybatis框架相关知识讲解

JAVAEE开发的三剑客：三大框架Mybatis：封装jdbc访问代码的一个框架（hibernate） ORM对象关系映射Spring MVC：用来封装servlet编程的一个框架（struts2）Spring：体系整合框架，其他框架的粘合剂；什么是框架：框架（Framework）是整个或部分系统的可重用设计，表现为一组抽象构件及构件实例间交互的方法; 另一种...

2019-04-14 10:33:15 371

原创安装hdfs集群的具体步骤

一、首先需要准备N台linux服务器学习阶段，用虚拟机即可！先准备4台虚拟机：1个namenode节点 + 3 个datanode 节点二、修改各台机器的主机名和ip地址主机名：hdp-01 对应的ip地址：192.168.33.61主机名：hdp-02 对应的ip地址：192.168.33.62主机名：hdp-03 对应的ip地址：192.168.33.63主...

2019-04-14 10:05:44 446

原创大数据Hadoop原理学习（HDFS,MAPREDUCE,YARN）

hadoophadoop中有3个核心组件：分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上分布式运算编程框架：MAPREDUCE —— 实现在很多机器上分布式并行运算分布式资源调度平台：YARN —— 帮用户调度大量的mapreduce程序，并合理分配运算资源hdfs整体运行机制hdfs：分布式文件系统hdfs有着文件系统共同的特征：有目录结构，...

2019-04-14 10:03:53 542

原创原生xgboost与sklearn里的xgboost

要知道现在有两个主要的xgboost来源，一个是原生xgboost，另一个是sklearn里的xgboost，先开一篇，等有时间写

2019-04-12 23:10:39 1819

原创 python运行程序的时间计算

今天用python写程序，突然想计算某段语句运行时间，计算时间代码如下start = time.clock()elapsed = (time.clock() - start)print("Time used:",elapsed)

2019-04-12 18:16:08 448

原创 matplotlib中的plot_importance画图大小控制

今天用plot_importance画图的时候，发现用matplotlib的正常设置图大小的方法无效，找遍网上也很少有办法，最后看别人代码终于找到解决办法。fig,ax = plt.subplots(figsize=(15,15))plot_importance(model, height=0.5, ax=ax, ...

2019-04-12 18:10:13 8737 5

原创 sklearn中的XGBClassifier函数学习

# 常规参数booster gbtree 树模型做为基分类器（默认） gbliner 线性模型做为基分类器 silent silent=0时，不输出中间过程（默认） silent=1时，输出中间过程 nthread nthread=-1时，使用全部CPU进行并行运算（默认） nthread=1时，使用1个CPU进行运算。 scale_pos_weight...

2019-04-12 18:00:38 2158

原创机器学习的gridSearchCV调参

class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise’, retu...

2019-04-12 17:36:35 694

原创 pandas数据切片

X[:, m:n]，即取所有数据的第m到n-1列数据，含左不含右！！不是从第m到第n列数据全取！！！

2019-04-11 17:31:12 407

原创 pandas显示不全问题

import pandas as pd#显示所有行(参数设置为None代表显示所有行，也可以自行设置数字)pd.set_option('display.max_columns',None)#显示所有列pd.set_option('display.max_rows',None)...

2019-04-11 16:33:48 502

原创 ModuleNotFoundError: No module named 'sklearn.grid_search'报错

把from sklearn.grid_search import GridSearchCV改为from sklearn.model_selection import GridSearchCV

2019-04-11 15:21:50 534

原创 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

简介：学习用户行为背后的复杂特征交互对于推荐系统的CTR预估是很重要的，任务是预测用户点击推荐项目的概率。在在线广告中，提升收益是很重要的。所以排序策略成了CTR*bid,bid就是如果被一个用户点击了，系统的收益。对CTR预估来说，了解用户行为的隐含关联是很重要的，例如我们发现人们经常在饭点下载外卖app。一般来说，用户单击行为背后的特性交互操作可能非常复杂，低阶和高阶特性交互都应该...

2019-04-10 15:00:46 1055

原创 Add Two Polynomials

4-1Add Two Polynomials(8分)Write a function to add two polynomials. Do not destroy the input. Use a linked list implementation with a dummy head node. Note: The zero polynomial is represented by ...

2019-04-10 14:23:12 1357

原创 Evaluate Postfix Expression

4-1Evaluate Postfix Expression(10分)Write a program to evaluate a postfix expression. You only have to handle four kinds of operators: +, -, x, and /.Format of functions:ElementType EvalPost...

2019-04-10 14:22:37 1060

原创是否同一棵二叉搜索树

5-4是否同一棵二叉搜索树(25分)给定一个插入序列就可以唯一确定一棵二叉搜索树。然而，一棵给定的二叉搜索树却可以由多种不同的插入序列得到。例如分别按照序列{2, 1, 3}和{2, 3, 1}插入初始为空的二叉搜索树，都得到一样的结果。于是对于输入的各种插入序列，你需要判断它们是否能生成一样的二叉搜索树。输入格式:输入包含若干组测试数据。每组数据的第1行给出两个正整数NN(...

2019-04-10 14:22:18 436

原创数据结构

#include <cstdlib>#include <algorithm>#include <stack>#include <vector>#include <iterator> using namespace std; int main() { int m, n, k, _t; scanf("%d...

2019-04-10 14:22:02 439

原创 Build A Binary Search Tree

5-1Build A Binary Search Tree(13分)A Binary Search Tree (BST) is recursively defined as a binary tree which has the following properties:The left subtree of a node contains only nodes with keys...

2019-04-10 14:21:47 560

原创 c语言玫瑰告白代码

作为资深趣味寻找者，这次有一个好程序分享。#include#include#include#include#include#pragma comment(lib,"winmm.lib")//定义全局变量int rosesize = 500;int h = -250;//定义结构体struct DOT{double x;double y;...

2019-04-10 14:20:41 35867 12

原创 DeepWalk: Online Learning of Social Representations-2

Language Modeling语言建模的目标是估计语料库中出现特定单词序列的可能性。更正式的是，给定一个单词序列。在训练语料库里最大化在这项工作中，我们提出了一种通用的语言模化方法，通过一系列的随机短游动来研究图形。这些行走可以用一种特殊的语言来思考短句和短语。直接的模拟是估计在目前的随机游走之后发现顶点vi的可能性。我们的目标是学习一个潜在的表示，而不仅仅是节点共现的概率...

2019-04-09 10:40:44 409

原创 DeepWalk: Online Learning of Social Representations-1

我们提出了一种新的学习网络中顶点的潜在表示的新方法。这些潜在表达在一个连续的向量空间中编码社交联系，它容易被统计模型利用。Deepwalk概括了语言模型的最近发展，和从单词序列到图的无特征监督学习。我们演示了DeepWalk在几个多标签分类任务的潜在表示，例如BlogCatalog,Flicker,Youtube。我们的结果表明DeepWalk优于具有挑战性的baseline，有一个对网络的全...

2019-04-09 10:30:39 415

原创 Label-dependent Feature Extraction in Social Networks for Node Classification

提出了一种基于社会网络特征提取的网络内分类方法。该方法提供了结合网络结构信息和分配给节点的类标签来计算的新特性。研究了不同特征对分类性能的影响。在真实数据上的实验表明，该方法生成的特征可以显著提高分类精度。Introduction有一些应用和研究方法，特别是与社交网络相关的应用和研究方法，能够产生相互连接的对象标签之间依赖的数据，称为关系自相关。根据这些连接，应该向分类过程中添加额外...

2019-04-09 10:25:45 477

原创同质异质网络——（F(fraud) A(Analytics) UDPSNT(Wylie_2015)）

当标签x的结点更大程度上连接其他标签x的结点的时候，这个网络是同质的。非同质的网络是异质的。这里定义的同质异质网络是指行骗者更可能连接着其他行骗者。合法人更可能连接其他合法人。令l为网络中合法结点的比例，f为网络中欺诈结点的比例，2lf就是一条边连接两个不同标签的结点的期望可能性，这些边叫做cross-labeled edges.如果已知的cross-labeled edges的比例r小于...

2019-04-09 10:16:11 8319

原创 Pagerank-2

拓展图有很多的我们可能涉及到的网络图在未来在计算上探索的理想的性能。Searching with PageRankPageRank的一个主要应用是搜索。我们已经实现了两个使用pagerank的搜索引擎。我们首先要讨论的是一个简单的基于标题的搜索引擎。第二个搜索引擎是名为Google的全文搜索引擎。Google利用了一系列的因子去对搜索结果排序包括标准IR度量，接近度，锚文本(链接到网页的文...

2019-04-09 10:15:31 283

原创 PageRank

为了衡量网页的重要性，pagerank是一种基于网络图计算每个页面的排名的方法。通常来说高连接的页面比少连接的页面更重要。 pagerank的直观描述：一个页面有高rank如果它的反向链接的rank和是高的。这包括两种情况，一个页面有很多反向链接和一个页面有一些高rank的反向链接以上是一个简单的ranking定义随机游走模型，“random surfer”简单地随机点击...

2019-04-09 10:14:13 562

人手一份核武器 - Hacking Team 泄露（开源）资料导览手册 _ WooYun知识库.pdf

空空如也