spark
jacksoom
设计与代码
展开
-
spark-sql(不包含hive-sql)查询编程
spark-sql(不包含hive-sql)查询编程//1:将json格式的数据转化为dataFrameval df =sqlContext.read.json("hdfs://localhost:9000/jacksoom/people.json")//读取json格式的数据,转化为dataFramedf.show()//显示dataFrame内容df.printSchema()//显示表字段原创 2016-04-20 16:25:47 · 1809 阅读 · 0 评论 -
Spark-Kmeans实战
Kmeans实战算法总结K-means均值聚类算法:算法核心思想:1. 选择K个类中心;(类中心范围为数据min,max之间)2. 计算各样本到类中心的距离,把样本添加到离他最近的那个类中心的dataset中。ps:常用距离度量方法为欧几里得距离或余弦相似度3. 重新计算类中心(根据各dataset的平均值为新的样本中心)4. 迭代进行2.3步骤原创 2016-03-22 00:41:31 · 745 阅读 · 0 评论