令狐公子的博客

Because running makes you feel alive

Spark-Hive

1、表:Hive中的表和关系型数据库中的表在概念上很类似,每个表在HDFS中都有相应的目录用来存储表的数据,这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置,这个属性默认的值是/user/...

2019-02-18 11:42:41

阅读数 89

评论数 0

MachineLearning—集成学习(Ensemble Learning)

集成学习是提高模型鲁棒性的重要方法,在数据、特征处理之后的阶段,如果在算法方面没有提升,可以尝试在模型集成方面发力,可以收到意想不到的结果。但并不是使用集成学习方法就一定会提高结果。例如stacking方法,理论讲其结果渐进等价于第一层最优子模型结果,使用stacking至少不会大幅度降低模型效果...

2019-02-13 17:44:50

阅读数 219

评论数 1

Kaggle - Bike Sharing Prediction

import pylab import calendar import numpy as np import pandas as pd import seaborn as sn from scipy import stats import missingno as msno from datet...

2019-02-13 17:43:18

阅读数 102

评论数 0

Pandas 速查

如果不归一化,各维特征的跨度差距很大,目标函数就会是“扁”的,图中椭圆表示目标函数的等高线,两个坐标轴代表两个特征。 在进行梯度下降的时候,梯度的方向就会偏离最小值的方向,走很多弯路。 归一化后,那么目标函数就变“圆”了,每一步梯度的方向都基本指向最小值,可以大踏步地前进,每一步梯度的方向基本都指...

2019-02-13 17:39:48

阅读数 104

评论数 0

使用sklearn - 特征工程

特征处理是特征工程的核心,sklearn提供了较为完整的特征处理方法! 本文中使用sklearn中的IRIS数据集来对特征处理功能进行说明。IRIS包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width...

2019-01-23 20:13:57

阅读数 92

评论数 0

二分查找

def binary_search(list,item): low = 0 high = len(list)-1 while low<=high: mid = (low+high)/2 guess = list[mi...

2018-08-24 16:04:48

阅读数 178

评论数 0

Linux下Anaconda的安装

安装文件可以在清华镜像上面直接下载,本文中使用的安装包如下所示:                                                                           将工作路径切换到Anaconda3-4.4.0-Linux-x86_64.sh所...

2018-08-07 23:16:39

阅读数 182

评论数 0

Hive_SQL(四)

CREATE TABLE pi_cust_item_recommend8( > ADVISE_ID VARCHAR(30), > CUST_CODE VARCHAR(30), > CGT_CODE VARC...

2018-08-01 22:58:45

阅读数 165

评论数 0

Hive_SQL(三)

hive> SELECT pi_cust_item_recommend2.cust_id, pi_cust_item_recommend2.item_id, pi_cust_item_recommend2.advise_level,pi_cust_item_recommen...

2018-08-01 22:25:04

阅读数 272

评论数 0

Hive_SQL(二)

hive> create table pi_cust_item_recommend2( > cust_id string, > item_id bigint, > advise_l...

2018-08-01 22:03:36

阅读数 113

评论数 0

Hive_SQL(一)

Last login: Tue Aug 29 09:11:12 2017 from 10.72.37.75 [root@bdddev-agent-205 ~]# su hive [hive@bdddev-agent-205 root]$ cd [hive@bdddev-agent-205 ~]$...

2018-08-01 21:05:49

阅读数 231

评论数 0

Vim_Linux指令_Git

cp /usr/inspur/2.5.0.0-1245/spark2/python/spark_recommend.py /usr/inspur/2.5.0.0-1245/spark2/python/pyspark You have mail in /var/spool/mail/root  ...

2018-07-24 23:10:31

阅读数 93

评论数 0

SQL-结构化查询语言

数据库语言分类: 根据功能不同,可以将数据库系统提供的语言分成三种类型:1)数据定义语言(DDL),用于定义数据库模式;2)数据操纵语言(DML),用于对数据库进行查询和更新;3)数据控制语言(DCL),用于对数据进行权限管理。   数据库模式: 根据数据的不同抽象层次,数据库有三级模式:...

2018-07-24 16:27:53

阅读数 1581

评论数 0

MachineLearning—Singular Value Decomposition(SVD)

奇异值分解(SVD)原理与在降维中的应用     奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做...

2018-07-18 23:49:07

阅读数 138

评论数 0

MachineLearning—Random Forest实现 python

在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。 Bagging框架的参数 和GBDT...

2018-07-18 11:15:27

阅读数 425

评论数 0

MachineLearning—随机森林(Random Forest)

  随机森林(Random Forest,简称RF)到底是怎样的一种算法呢?如果读者接触过决策树(Decision Tree)的话,那么会很容易理解什么是随机森林。随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemb...

2018-07-18 11:02:37

阅读数 354

评论数 0

MachineLearning—CART分类回归树python应用实现

  # -*- coding: utf-8 -*- from numpy import * import numpy as np import pandas as pd from math import log import operator import re f...

2018-07-18 10:53:12

阅读数 407

评论数 0

MachineLearning—Decision Tree(DT)

决策树模型主要分为分类树和回归树两类,这里我们首先主要介绍分类树。它是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成,而结点分为内部结点和叶结点,其中内部结点表示一个特征或属性,叶结点表示一个类。决策树学习的本质是从训练数据集上归纳出一组分类规则,是特征空间的一个划分,决策树学习的损失...

2018-07-18 10:06:04

阅读数 161

评论数 0

MachineLearning—L1、L2正则化介绍

  防止过拟合,也是为了限制模型的复杂度,避免将噪声也学习进去,通常考虑如下方法来限制惩罚模型:   0范数,向量中非零元素的个数最小,|W|0 1范数(L1正则),为绝对值之和最小。 2范数(L2正则),就是通常意义上的模。 正则化Regularization,常用的机器学习损失函数...

2018-07-18 09:53:33

阅读数 956

评论数 0

MachineLearning—GBDT实践及参数

import pandas as pd import numpy as np from sklearn.ensemble import GradientBoostingClassifier from sklearn import cross_validation, metrics from sk...

2018-07-18 09:45:43

阅读数 248

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭