![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 79
love_zy0216
这个作者很懒,什么都没留下…
展开
-
spark整合kafka中遇到的奇葩问题
现在的公司好久没接触到大数据项目了,怕自己忘记了,所以在下班时间自己找了个小项目试一试,中间只遇到了一个问题,就是软件兼容性问题 1、所有的scala类都已经存在 经过多方了解可能是scala的版本过高了,所以从2.11.12换成了2.10.0,此问题得到了解决 2、编译报错 Error:scalac: Error: org.jetbrains.jps.incremental.scala.rem...原创 2019-03-27 20:12:17 · 606 阅读 · 0 评论 -
我理解的贪心算法
最近公司要弄一个图谱推荐的项目,在项目最后对剩余的销售人员使用贪心算法进行最后一步过滤,获取最佳销售人员组合,话不多说,先把代码贴出来 public class GreedyAlgorithm { /** * * @param personSimilary 可选择的销售人员 * @param cost 成本 * @r...原创 2019-03-28 10:54:38 · 158 阅读 · 0 评论 -
临近算法
还是图谱推荐项目,最初的设计是通过临近算法处理推荐,但是实现过后又被放弃了,原因是领导的决策变了。。。 先介绍一下临近算法: kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。(百度百科) 我自己的理解大致分下面几个步骤: 1、 从测试集中取数据,分别和已经存在的点计算欧氏距离 2、对欧氏距离从小到大进行排...原创 2019-03-28 13:34:26 · 704 阅读 · 0 评论 -
基于随机游走的personalRank算法
基于随机游走的personalRank算法是从谷歌的pageRank算法演变来的,使用的比较少,可以说是比较小众。至于pageRank算法在此贴出我认为写得好的博客pageRank算法参考 1、personalRank算法介绍: 数据集随机分成训练集和测试集,指定训练集中任意点开始进行随机游走,游走的时候根据不同点之间的权重来选择游走方向的概率,到达下一个点以后会根据指定的alpha值随机决定继...原创 2019-03-28 14:16:25 · 1501 阅读 · 0 评论 -
堆排序实现
图谱推荐过程中需要对大量list集合中的数据进行排序,故此使用堆排序 堆排序的原理相对比较简单,就是构造大根堆或者小根堆后将堆的跟交换到数组的最前面或者最后面,然后对剩下的数组元素继续进行此过程,知道所有的元素排序完毕。 堆排序: public class Heapsort { public <T> void sort(List<T> list,int k) { Ob...原创 2019-03-28 14:22:23 · 65 阅读 · 0 评论