自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

htbeker的博客

数据挖掘与机器学习爱好者

  • 博客(7)
  • 收藏
  • 关注

原创 将hdfs数据写入hive

下面来唠唠怎么将hdfs里的数据写入到hive里。要将数据写入hive里,那么hive里得有存放数据表得位置,因此,第一步,是在hive里创建新的表来存储来自hdfs的数据,这里有两个注意:1、新建的表应该跟hdfs里面数据表一致,指定列名;2、创建表格式应一致,具体就是指row format delimited fields terminated by ','里by后面应与hdfs数据保...

2019-01-25 15:42:09 7082

原创 tensorflow搭建简单线性模型及神经网络

利用tensorflow搭建简单线性模型及神经网络生成线性模型

2019-01-23 22:12:16 429

原创 pandas分批读取大数据集

如果你的电脑内存较小那么想在本地做一些事情是很有局限性的(哭丧脸),比如想拿一个kaggle上面的竞赛来练练手,你会发现多数训练数据集都是大几G或者几十G的,自己那小破电脑根本跑不起来。行,你有8000w条样本你牛逼,我就取400w条出来跑跑总行了吧(狡滑脸)。下图是2015年kaggle上一个CTR预估比赛的数据集:看到train了吧,原始数据集6个G,特征工程后得多大?那我就取40...

2019-01-18 17:53:22 23659 5

原创 pyspark.sql.functions详解

pyspark.sql.functions包含了很多内置函数。1.pyspark.sql.functions.abs(col)计算绝对值。2.pyspark.sql.functions.acos(col)计算给定值的反余弦值; 返回的角度在0到π的范围内。3.pyspark.sql.functions.add_months(start, months)返回start后mon...

2019-01-16 21:11:55 23173

转载 计算广告CTR预估系列--Wide&Deep理论与实践

转自: https://blog.csdn.net/u010352603/article/details/80590129计算广告CTR预估系列(四)–Wide&Deep理论与实践1. 名词解释1.1 Memorization 和 Generalization1.2 Wide 和 Deep1.3 Cross-product transformation2. Wide &amp...

2019-01-16 17:53:50 658

原创 pyspark稠密向量(DenseVector)和稀疏向量(SparseVector)

pyspark稠密向量和稀疏向量pyspark的本地向量有两种:DenseVctor :稠密向量 其创建方式 Vector.dense(数据)SparseVector :稀疏向量 其创建方式有两种:  方法一:Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数组)  方法二:Vector.sparse(向量长度,(索引,数值),(索引,数值...

2019-01-15 14:15:43 8976 2

原创 使用pyspark ml 构建logisticRegression模型

数据量上来了不得不祭出spark,先用逻辑回归试试水。

2019-01-06 22:47:39 2459

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除