- 博客(7)
- 收藏
- 关注
原创 将hdfs数据写入hive
下面来唠唠怎么将hdfs里的数据写入到hive里。要将数据写入hive里,那么hive里得有存放数据表得位置,因此,第一步,是在hive里创建新的表来存储来自hdfs的数据,这里有两个注意:1、新建的表应该跟hdfs里面数据表一致,指定列名;2、创建表格式应一致,具体就是指row format delimited fields terminated by ','里by后面应与hdfs数据保...
2019-01-25 15:42:09 7082
原创 pandas分批读取大数据集
如果你的电脑内存较小那么想在本地做一些事情是很有局限性的(哭丧脸),比如想拿一个kaggle上面的竞赛来练练手,你会发现多数训练数据集都是大几G或者几十G的,自己那小破电脑根本跑不起来。行,你有8000w条样本你牛逼,我就取400w条出来跑跑总行了吧(狡滑脸)。下图是2015年kaggle上一个CTR预估比赛的数据集:看到train了吧,原始数据集6个G,特征工程后得多大?那我就取40...
2019-01-18 17:53:22 23659 5
原创 pyspark.sql.functions详解
pyspark.sql.functions包含了很多内置函数。1.pyspark.sql.functions.abs(col)计算绝对值。2.pyspark.sql.functions.acos(col)计算给定值的反余弦值; 返回的角度在0到π的范围内。3.pyspark.sql.functions.add_months(start, months)返回start后mon...
2019-01-16 21:11:55 23173
转载 计算广告CTR预估系列--Wide&Deep理论与实践
转自: https://blog.csdn.net/u010352603/article/details/80590129计算广告CTR预估系列(四)–Wide&Deep理论与实践1. 名词解释1.1 Memorization 和 Generalization1.2 Wide 和 Deep1.3 Cross-product transformation2. Wide &...
2019-01-16 17:53:50 658
原创 pyspark稠密向量(DenseVector)和稀疏向量(SparseVector)
pyspark稠密向量和稀疏向量pyspark的本地向量有两种:DenseVctor :稠密向量 其创建方式 Vector.dense(数据)SparseVector :稀疏向量 其创建方式有两种: 方法一:Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数组) 方法二:Vector.sparse(向量长度,(索引,数值),(索引,数值...
2019-01-15 14:15:43 8976 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人