2019年01月_htbeker

原创将hdfs数据写入hive

下面来唠唠怎么将hdfs里的数据写入到hive里。要将数据写入hive里，那么hive里得有存放数据表得位置，因此，第一步，是在hive里创建新的表来存储来自hdfs的数据，这里有两个注意：1、新建的表应该跟hdfs里面数据表一致，指定列名；2、创建表格式应一致，具体就是指row format delimited fields terminated by ','里by后面应与hdfs数据保...

2019-01-25 15:42:09 7082

原创 tensorflow搭建简单线性模型及神经网络

利用tensorflow搭建简单线性模型及神经网络生成线性模型

2019-01-23 22:12:16 429

原创 pandas分批读取大数据集

如果你的电脑内存较小那么想在本地做一些事情是很有局限性的（哭丧脸），比如想拿一个kaggle上面的竞赛来练练手，你会发现多数训练数据集都是大几G或者几十G的，自己那小破电脑根本跑不起来。行，你有8000w条样本你牛逼，我就取400w条出来跑跑总行了吧（狡滑脸）。下图是2015年kaggle上一个CTR预估比赛的数据集：看到train了吧，原始数据集6个G，特征工程后得多大？那我就取40...

2019-01-18 17:53:22 23659 5

原创 pyspark.sql.functions详解

pyspark.sql.functions包含了很多内置函数。1.pyspark.sql.functions.abs(col)计算绝对值。2.pyspark.sql.functions.acos(col)计算给定值的反余弦值; 返回的角度在0到π的范围内。3.pyspark.sql.functions.add_months(start, months)返回start后mon...

2019-01-16 21:11:55 23173

转载计算广告CTR预估系列--Wide&Deep理论与实践

转自： https://blog.csdn.net/u010352603/article/details/80590129计算广告CTR预估系列(四)–Wide&Deep理论与实践1. 名词解释1.1 Memorization 和 Generalization1.2 Wide 和 Deep1.3 Cross-product transformation2. Wide &amp...

2019-01-16 17:53:50 658

原创 pyspark稠密向量(DenseVector)和稀疏向量(SparseVector)

pyspark稠密向量和稀疏向量pyspark的本地向量有两种：DenseVctor ：稠密向量其创建方式 Vector.dense(数据)SparseVector ：稀疏向量其创建方式有两种：　　方法一：Vector.sparse(向量长度，索引数组，与索引数组所对应的数值数组)　　方法二：Vector.sparse(向量长度，（索引，数值），（索引，数值...

2019-01-15 14:15:43 8976 2

原创使用pyspark ml 构建logisticRegression模型

数据量上来了不得不祭出spark，先用逻辑回归试试水。

2019-01-06 22:47:39 2459

htbeker的博客