- 博客(3)
- 资源 (7)
- 收藏
- 关注
原创 SparkSQL注册自定义函数
SparkSql可以方便地使用sql来处理数据,实际中经常会大量使用。在处理复杂逻辑时,为了避免写出又长又难以理解的SQL,可以实现自定义函数,再将其注册后,供sql调用。不仅减少sql的复杂度,还增加了代码的重用。下面就实现一个例子来说明,目的是以15分钟为统计周期,统计订单量。
2017-05-26 23:26:29 2968
原创 spark数据导入、处理实例
当项目中遇到所要分析的数据量较大情况时,本地python直接处理或导入数据库等普通的处理方式显然并不合适,不仅效率低下,且容易引起数据库崩溃。用spark将本地数据上传hdfs,写入hive,会更加高效。
2017-05-24 22:58:13 3619
原创 apriori算法实现挖掘商品关联规则(python)
数据挖掘有个常见的应用场景,即顾客在购买一件商品时,商家可以趁机了解他们还想买什么,以便把多数顾客愿意同时购买的商品放到一起销售以提升销售额。当商家收集到足够多的数据时,就可以对其进行亲和性分析,以确定哪些商品适合放在一起出售。
2017-05-23 23:32:47 7776 7
推荐系统实践
2017-05-23
Stanford 教授 Andrew Ng 的 Deep Learning 教程
2017-05-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人