htbeker的博客

数据挖掘与机器学习爱好者

spark.DataFrane分布式转pandas.dataframe

import pandas as pd def _map_to_pandas(rdds): return [pd.DataFrame(list(rdds))] def topas(df, n_partitions=None): if n_partitions is not...

2019-07-15 20:04:15

阅读数 29

评论数 0

tf.reduce_sum()

reduce_sum应该理解为按相应的轴压缩求和,用于降维。通过设置axis参数按相应轴压缩求和。通过如下实例进行理解。 先设置一个2*3*4的tensor实例x。 x =tf.constant([[[ 1, 2, 3, 4], [ 5, 6, 7, 8], [ 9, 10, 11, 12]...

2019-07-02 19:17:12

阅读数 40

评论数 0

XGBoost原理及目标函数推导详解

前言 XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,XGBoost是集成学习方法的王牌,在Kaggle及工业界都有广泛的应用并取得了较好的成绩,本文较详细的介绍了XGBoost的算法原理及目标函数公式推导。 一、XGBoost原理 XGBoo...

2019-06-12 17:02:34

阅读数 150

评论数 0

hive获取今天/明天/昨天时间

一、获取今天时间 select FROM_UNIXTIME(UNIX_TIMESTAMP()) date 二、获取明天时间 select regexp_replace(substr(date_add(FROM_UNIXTIME(UNIX_TIMESTAMP()),1),1,10),'...

2019-06-04 19:13:58

阅读数 147

评论数 0

hive中case..when和row_number()的使用

一、case..when 将列值进行条件筛选和转换。 select sex,case when sex = 1 then 'man' when sex = 2 then 'woman' when sex = 3 then 'secret' else 'other' end SEX fro...

2019-06-03 19:33:51

阅读数 90

评论数 0

hive 行转列/列转行

在使用hive对一些日志数据进行解析或者分析的时候会有将行列进行转换的情形,我们将分别进行讨论。 一、行转列。 原始数据如下: 图一 需要转换成如下形式: ...

2019-05-27 20:13:24

阅读数 58

评论数 0

pyspark中dataframe切片

想要对pyspark中dataframe实现pandas.dataframe中iloc的切片功能,发现spark中没有相关函数可以直接实现该功能,因此自己琢磨了一个方法。 首先创建一个dataframe。 dfs = spark.createDataFrame([("a",...

2019-03-20 15:33:30

阅读数 371

评论数 0

tf.nn.embedding_lookup和tf.gather实例

tf.nn.embedding_lookup的作用就是找到embedding data中对应行下的vector tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None, validate_indices=T...

2019-02-16 17:44:31

阅读数 215

评论数 0

tf.truncated_normal和tf.random_normal

import numpy as np import pandas as pd from pandas import Series,DataFrame import matplotlib.pyplot as plt import tensorflow as tf tf.truncate...

2019-02-13 09:23:04

阅读数 84

评论数 0

tf.matmul和tf.multiply

tf.matmul为矩阵相乘,tf.multiply为矩阵中对应元素各自相乘

2019-02-12 18:36:28

阅读数 85

评论数 0

推荐系统深度学习实战之Wide_Deep

推荐系统与深度学习的结合。在推荐系统中,记忆体现的准确性,而泛化体现的是新颖性,wide_deep能将两者相结合。 1、Memorization 和 Generalization      这个是从人类的认知学习过程中演化来的。人类的大脑很复杂,它可以记忆(memorize)下每天发生的事情(...

2019-02-11 16:19:56

阅读数 566

评论数 0

推荐系统及CTR预估实战之--GBDT+LR

GBDT和LR的融合在广告点击率预估和电商排序中有较多的应用。Facebook 2014年的文章介绍了通过GBDT解决LR的特征组合问题,随后该方法在kaggle竞赛中取得了较好的成绩,因此受到了业界的关注并逐渐使用。要使用GBDT和LR的融合,那么这两种算法应该熟悉,网上相关资料也很多,这里不再...

2019-01-31 00:01:30

阅读数 356

评论数 0

将hdfs数据写入hive

下面来唠唠怎么将hdfs里的数据写入到hive里。 要将数据写入hive里,那么hive里得有存放数据表得位置,因此, 第一步,是在hive里创建新的表来存储来自hdfs的数据,这里有两个注意:1、新建的表应该跟hdfs里面数据表一致,指定列名;2、创建表格式应一致,具体就是指row form...

2019-01-25 15:42:09

阅读数 586

评论数 0

tensorflow搭建简单线性模型及神经网络

利用tensorflow搭建简单线性模型及神经网络 生成线性模型

2019-01-23 22:12:16

阅读数 141

评论数 0

pandas分批读取大数据集

如果你的电脑内存较小那么想在本地做一些事情是很有局限性的(哭丧脸),比如想拿一个kaggle上面的竞赛来练练手,你会发现多数训练数据集都是大几G或者几十G的,自己那小破电脑根本跑不起来。行,你有8000w条样本你牛逼,我就取400w条出来跑跑总行了吧(狡滑脸)。 下图是2015年kaggle上一...

2019-01-18 17:53:22

阅读数 3060

评论数 2

pyspark.sql.functions详解

pyspark.sql.functions包含了很多内置函数。 1.pyspark.sql.functions.abs(col) 计算绝对值。 2.pyspark.sql.functions.acos(col) 计算给定值的反余弦值; 返回的角度在0到π的范围内。 3.pyspark.s...

2019-01-16 21:11:55

阅读数 1308

评论数 0

计算广告CTR预估系列--Wide&Deep理论与实践

转自: https://blog.csdn.net/u010352603/article/details/80590129 计算广告CTR预估系列(四)–Wide&Deep理论与实践 1. 名词解释 1.1 Memorization 和 Generalization 1....

2019-01-16 17:53:50

阅读数 221

评论数 0

pyspark稠密向量(DenseVector)和稀疏向量(SparseVector)

pyspark稠密向量和稀疏向量 pyspark的本地向量有两种: DenseVctor   :稠密向量   其创建方式   Vector.dense(数据) SparseVector :稀疏向量   其创建方式有两种:   方法一:Vector.sparse(向量长度,索引数组,与索引数...

2019-01-15 14:15:43

阅读数 1113

评论数 0

使用pyspark ml 构建logisticRegression模型

数据量上来了不得不祭出spark,先用逻辑回归试试水。  

2019-01-06 22:47:39

阅读数 497

评论数 0

集成学习之stacking详解

什么是集成学习方法? 集成学习有以GBDT为代表的boosting方法和以RF为代表的Bagging方法,今天我们介绍另外一种stacking方法。stacking在kaggle中大为光火,很多高分选手都用了此方法,在工业界应用不详,还请知道的大神详解。 Stacking流程 在第一阶段,将...

2018-12-30 21:36:27

阅读数 790

评论数 0

提示
确定要删除当前文章?
取消 删除