- 博客(12)
- 资源 (27)
- 收藏
- 关注
原创 猎豹移动面试总结
/* *猎豹移动面试总结 */ 1、第一面 做过最熟悉的项目,数据处理怎么做的? 算法题:有一堆乒乓球,分别放到4个桶里,他们最终的比例是1:2:3:4,如何实现? 这个题考官提示用随机产生器,分别产生概率为,0.1,0.2,0.3.0.4,根据概率放到不同的4个桶里,最终满足要求。 2、第二面 简单介绍一下,基于用户的协同过滤,怎么实现的,实现过程中遇到什么问题? scala有没
2017-08-08 10:35:01 380
原创 凤凰网实习生面试
凤凰网移动互联网推荐系统工程师面试总结。 总共是三面,第一面是一个实际技术面试,主要是问做过什么,我主要讲的是协同过滤推荐中的基于用户、基于项目、基于模型的算法,手推公式。机器学习主要是决策树推到,面试官看的很仔细。 第二面是leader面试,上来就开始问L1和L2正则得区别,自然语言处理了解多少,SVM推到,奇异值分解,矩阵分解基于随机梯度和最小二乘的区别,什么时候用user-cf,什么时候用
2017-03-20 23:48:41 1660
原创 天创信用面试,公司网址:http://www.ypcredit.com/
天创信用面试,公司网址:http://www.ypcredit.com/ 2017年2月22日受邀天创信用面试数据挖掘工程师,面试总共分为两个步骤,1、笔试,2、技术面。 1、笔试 笔试题主要考的是java中的线程、arrayList,数据结构中的单链表、二叉树遍历、排序算法(快速排序、堆),数据库中的having查询。 2、技术面 技术主要问数据挖掘基本算法和文本挖掘,比如决策树、如何判
2017-02-23 22:01:09 1438
原创 基于python3的k-means代码实现
k-means算法是非监督学习的一种,其中k值是随机选取的,在本代码中是人为指定为2,准备聚两个类。 算法描述:1. 加载数据2. 聚类2.1、 初始化聚类中心,随机选取两个点作为聚类中心点。2.2、while直到clusterChanged=false2.3、计算每个点离中心点的距离,记录最小距离,并标识是属于哪个类。2.4、更新聚类集合的点。2.5、 更新聚类中心代码实现前先浏览一下数据,数据
2016-11-18 18:22:51 7138 1
原创 基于Jupyter平台通过python实现Spark的应用程序之wordCount
1、启动spark平台,界面如下: 2、启动Jupyter,界面如下图所示: 如果你对以上启动存在疑问的话,请看我的上一篇博客,关于Jupyter配置Spark的。 3、功能分析 - 我们要实现的一个功能是统计词频 - 我们需要把统计的文件上传到hdfs里面 - 编写python脚本 4、代码实现 - 上传文件到hdfs 我有一个hello.txt文件,里面有两行
2016-11-12 20:47:37 2047
原创 spark2.0下实现IPYTHON3.5开发,兼配置jupyter,notebook降低python开发难度
spark2.0下实现IPYTHON3.5开发1、spark2.0安装就不说了,网上有很多,不会的话给我留言。 2、我们在spark2.0下用python开发的话,不需要安装python了,直接安装anaconda就可以啦! 3、anaconda下载地址:https://www.continuum.io/downloads,这里提供3.5和2.7的,考虑到以后学习,我下载最新的3.5,界面如下:
2016-11-11 21:12:25 2970
原创 通过mapReduce实现基于项目的协同过滤推荐
通过mapReduce实现基于项目的协同过滤推荐需求介绍 协同过滤推荐网上有很多种介绍,我这里主要介绍的是基于项目的协同过滤。基于项目的协同过滤推荐基于这样的假设:一个用户会喜欢他之前喜欢的项目相似的项目。因此,基于项目的协同过滤推荐关键在于计算物品之间的相似度。数据介绍 我选用的数据集合如下: 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,1
2016-11-05 16:53:23 3572
原创 3、二维数组查找一个数是不是存在
在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。假设数组为:1 2 8 92 4 9 124 7 10 136 8 11 15查找7分析:这个数行列都是有序的,我们可以考虑从右上角那个数开始比较,9>7,9这一列最小的都比7大,那么9下边的就没
2016-08-18 14:19:53 646
原创 2、斐波那契数列以及青蛙跳台阶
1、写一个函数,输入n,求斐波那契数列的第n项。斐波那契数列的定义如下:编程书上看到最多的就是递归实现,求100的伪代码描述如下:输入:n输出:f(n)初始化:n的值为100,result=01 if(n==0)2 return 0;3 if(n==1)4 return 1;5 if(n>1)6 递归result = f(n-1)
2016-08-17 14:08:56 1332
原创 1、求旋转数组的最小数
题目:把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个递增排序的数组的一个旋转,输出旋转数组的最小元素。例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转,该数组的最小值为1。分析:数组在旋转之前是有序的,旋转后的数组可以看成是两个有序序列,在这两个有序序列里面求最小值。我们可以通过二分查找的思想来实现本题。伪代码描述如下:输入:数组arrSearc
2016-08-17 09:42:53 299
原创 二分查找
二分查找,必须保证待查找的数组是有序的,这里实现了两种方法,第一种是非递归实现,第二种是递归实现,java代码如下所示:package algorithm;public class BinarySearch {/** @author pardy* 二分查找 非递归* 查找一个数在数组中的位置* 数组必须有序* @param srcArray* 有序数组
2016-08-15 16:27:26 327
原创 java实现快速排序
快速排序在排序算法中,平均情况下时间复杂度是O(nlog2n),基本思想是:首先选择一个轴值,将待排序记录划分成独立的两部分,左侧记录的关键码均小于或等于轴值,右侧记录的关键码总大于等于轴值,然后分别对这两部分重复上述过程,直到整个序列有序,java代码实现如下:package algorithm;/* * @author pardy * @describe 快速排序 * @p
2016-08-15 16:16:51 436
win7 64位 xgboost 安装包
2017-09-03
scikit_surprise推荐系统库
2017-06-08
k-means 基于anaconda的python3实现
2016-11-17
协同过滤算法java实现
2016-10-26
windows64位平台的hadoop2.6插件包(hadoop.dll,winutils.exe)
2016-10-05
arff格式数据集整理
2016-08-03
WEKA入门用的银行数据集bank-data
2016-07-06
中科院分词ICTCLAS5.0_JNI
2016-06-22
吴恩达老师 机器学习入门首选
2016-05-17
点击提示框提示信息消失
2013-01-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人