- 博客(4)
- 问答 (2)
- 收藏
- 关注
原创 spark学习资源总结
1、Spark 中文文档目录汇总:(主要是RDD的一些操作) https://zhuanlan.zhihu.com/p/327583332、Spark Streaming:大规模流式数据处理的新贵 https://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data3、Spark Streami...
2019-04-30 19:40:44 258
原创 pyspark datafram 在group(即window)中进行行间运算
1、Calculate difference between value in current row and value in first row per group - pysparkhttps://stackoverflow.com/questions/49555816/calculate-difference-between-value-in-current-row-and-value...
2019-04-29 15:49:04 470
原创 在Python中通过spark访问hbase(单机版)
1、单机环境安装(1)Jdk的安装,这个是后续环境安装的基础(2)Hadoop的安装,这个是使用hbase的前提(3)安装hbase,这个得找教程自己采坑了(4)安装spark2、Python中第三方包的安装(1)thrift,这个是使用hbase的前提(2)happybase,Python可以通过这个库访问hbase(3)pyspark,Python通过这个连接s...
2019-04-26 11:30:56 1171
原创 word2vec 学习总结——基础知识
之前学习word2vec时,遇到一篇很棒的详解word2vec前因后果的文章,但是由于没有自己动手造它的代码,所以时间长了就容易忘记,再加之每次看到一些相关的文章就总想去看去收藏,所以觉得需要自己好好捋一捋,以后遇到类似的基础文章可以跳过,节省时间。下面写的都是一些在其他文章中出现过的知识,这里只是个人的总结和理解。大神的文章:word2vec 中的数学原理详解(CSDN)...
2019-04-14 18:10:03 480
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人