自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pardy原创

本博客是关于数据结构、大数据开发、数据挖掘的,属于技术博客,欢迎志同道合的朋友评论。

  • 博客(12)
  • 资源 (27)
  • 收藏
  • 关注

原创 猎豹移动面试总结

/* *猎豹移动面试总结 */ 1、第一面 做过最熟悉的项目,数据处理怎么做的? 算法题:有一堆乒乓球,分别放到4个桶里,他们最终的比例是1:2:3:4,如何实现? 这个题考官提示用随机产生器,分别产生概率为,0.1,0.2,0.3.0.4,根据概率放到不同的4个桶里,最终满足要求。 2、第二面 简单介绍一下,基于用户的协同过滤,怎么实现的,实现过程中遇到什么问题? scala有没

2017-08-08 10:35:01 380

原创 凤凰网实习生面试

凤凰网移动互联网推荐系统工程师面试总结。 总共是三面,第一面是一个实际技术面试,主要是问做过什么,我主要讲的是协同过滤推荐中的基于用户、基于项目、基于模型的算法,手推公式。机器学习主要是决策树推到,面试官看的很仔细。 第二面是leader面试,上来就开始问L1和L2正则得区别,自然语言处理了解多少,SVM推到,奇异值分解,矩阵分解基于随机梯度和最小二乘的区别,什么时候用user-cf,什么时候用

2017-03-20 23:48:41 1660

原创 天创信用面试,公司网址:http://www.ypcredit.com/

天创信用面试,公司网址:http://www.ypcredit.com/ 2017年2月22日受邀天创信用面试数据挖掘工程师,面试总共分为两个步骤,1、笔试,2、技术面。 1、笔试 笔试题主要考的是java中的线程、arrayList,数据结构中的单链表、二叉树遍历、排序算法(快速排序、堆),数据库中的having查询。 2、技术面 技术主要问数据挖掘基本算法和文本挖掘,比如决策树、如何判

2017-02-23 22:01:09 1437

原创 基于python3的k-means代码实现

k-means算法是非监督学习的一种,其中k值是随机选取的,在本代码中是人为指定为2,准备聚两个类。 算法描述:1. 加载数据2. 聚类2.1、 初始化聚类中心,随机选取两个点作为聚类中心点。2.2、while直到clusterChanged=false2.3、计算每个点离中心点的距离,记录最小距离,并标识是属于哪个类。2.4、更新聚类集合的点。2.5、 更新聚类中心代码实现前先浏览一下数据,数据

2016-11-18 18:22:51 7138 1

原创 基于Jupyter平台通过python实现Spark的应用程序之wordCount

1、启动spark平台,界面如下: 2、启动Jupyter,界面如下图所示: 如果你对以上启动存在疑问的话,请看我的上一篇博客,关于Jupyter配置Spark的。 3、功能分析 - 我们要实现的一个功能是统计词频 - 我们需要把统计的文件上传到hdfs里面 - 编写python脚本 4、代码实现 - 上传文件到hdfs 我有一个hello.txt文件,里面有两行

2016-11-12 20:47:37 2047

原创 spark2.0下实现IPYTHON3.5开发,兼配置jupyter,notebook降低python开发难度

spark2.0下实现IPYTHON3.5开发1、spark2.0安装就不说了,网上有很多,不会的话给我留言。 2、我们在spark2.0下用python开发的话,不需要安装python了,直接安装anaconda就可以啦! 3、anaconda下载地址:https://www.continuum.io/downloads,这里提供3.5和2.7的,考虑到以后学习,我下载最新的3.5,界面如下:

2016-11-11 21:12:25 2969

原创 通过mapReduce实现基于项目的协同过滤推荐

通过mapReduce实现基于项目的协同过滤推荐需求介绍 协同过滤推荐网上有很多种介绍,我这里主要介绍的是基于项目的协同过滤。基于项目的协同过滤推荐基于这样的假设:一个用户会喜欢他之前喜欢的项目相似的项目。因此,基于项目的协同过滤推荐关键在于计算物品之间的相似度。数据介绍 我选用的数据集合如下: 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,1

2016-11-05 16:53:23 3571

原创 3、二维数组查找一个数是不是存在

在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。假设数组为:1 2  8   92 4  9  124 7 10 136 8 11 15查找7分析:这个数行列都是有序的,我们可以考虑从右上角那个数开始比较,9>7,9这一列最小的都比7大,那么9下边的就没

2016-08-18 14:19:53 646

原创 2、斐波那契数列以及青蛙跳台阶

1、写一个函数,输入n,求斐波那契数列的第n项。斐波那契数列的定义如下:编程书上看到最多的就是递归实现,求100的伪代码描述如下:输入:n输出:f(n)初始化:n的值为100,result=01 if(n==0)2     return 0;3 if(n==1)4     return 1;5 if(n>1)6 递归result = f(n-1)

2016-08-17 14:08:56 1332

原创 1、求旋转数组的最小数

题目:把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个递增排序的数组的一个旋转,输出旋转数组的最小元素。例如数组{3,4,5,1,2}为{1,2,3,4,5}的一个旋转,该数组的最小值为1。分析:数组在旋转之前是有序的,旋转后的数组可以看成是两个有序序列,在这两个有序序列里面求最小值。我们可以通过二分查找的思想来实现本题。伪代码描述如下:输入:数组arrSearc

2016-08-17 09:42:53 299

原创 二分查找

二分查找,必须保证待查找的数组是有序的,这里实现了两种方法,第一种是非递归实现,第二种是递归实现,java代码如下所示:package algorithm;public class BinarySearch {/** @author pardy* 二分查找 非递归* 查找一个数在数组中的位置* 数组必须有序* @param srcArray* 有序数组

2016-08-15 16:27:26 327

原创 java实现快速排序

快速排序在排序算法中,平均情况下时间复杂度是O(nlog2n),基本思想是:首先选择一个轴值,将待排序记录划分成独立的两部分,左侧记录的关键码均小于或等于轴值,右侧记录的关键码总大于等于轴值,然后分别对这两部分重复上述过程,直到整个序列有序,java代码实现如下:package algorithm;/* * @author pardy * @describe 快速排序 * @p

2016-08-15 16:16:51 436

win7 64位 xgboost 安装包

在win7 64位 下安装xgboost,里面包括完整的安装软件,详细的安装步骤,其中numpy-1.9.3+mkl-cp34-none-win_amd64太大,需要按说明书下载。

2017-09-03

Probabilistic Matrix Factorization概率矩阵分解Python源代码

推荐系统中效率比较高的矩阵分解算法

2017-07-30

scikit_surprise推荐系统库

支持多种推荐算法,SVD, PMF, SVD++, NMF,neighborhood methods,baseline algorithms

2017-06-08

delicious-2k.zip

delicious-2k.zip

2017-03-05

产生式系统的推理

产生式

2016-12-01

k-means 基于anaconda的python3实现

通过k-means实现聚类,本例给出的数据集是testSet,用户下载代码以后,修改fileIn = open('F:/python/testSet.txt') 这句代码为自己文件的存放位置,即可运行。

2016-11-17

协同过滤算法java实现

本资源是推荐系统中最基本的协同过滤推荐算法实现,包括数据集,以及算法的评价指标MAE的计算,数据集采用MovieLens中两个数据集进行测试,本程序配备一个readme文件,里面有程序的运行介绍,程序注释详细,希望对大家有帮助

2016-10-26

windows64位平台的hadoop2.6插件包(hadoop.dll,winutils.exe)

windows64位平台的hadoop2.6插件包(hadoop.dll,winutils.exe)

2016-10-05

arff格式数据集整理

数据集目录: 2dplanes.arff abalone.arff ailerons.arff Amazon_initial_50_30_10000.arff anneal.arff anneal.ORIG.arff arrhythmia.arff audiology.arff australian.arff auto93.arff autoHorse.arff autoMpg.arff autoPrice.arff autos.arff auto_price.arff balance-scale.arff bank.arff bank32nh.arff bank8FM.arff baskball.arff bodyfat.arff bolts.arff breast-cancer.arff breast-w.arff breastTumor.arff bridges_version1.arff bridges_version2.arff cal_housing.arff car.arff cholesterol.arff cleveland.arff cloud.arff cmc.arff colic.arff colic.ORIG.arff contact-lenses.arff cpu.arff cpu.with.vendor.arff cpu_act.arff cpu_small.arff credit-a.arff credit-g.arff cylinder-bands.arff delta_ailerons.arff delta_elevators.arff dermatology.arff detroit.arff diabetes.arff diabetes_numeric.arff echoMonths.arff ecoli.arff elevators.arff elusage.arff eucalyptus.arff eye_movements.arff fishcatch.arff flags.arff fried.arff fruitfly.arff gascons.arff glass.arff grub-damage.arff heart-c.arff heart-h.arff heart-statlog.arff hepatitis.arff house_16H.arff house_8L.arff housing.arff hungarian.arff hypothyroid.arff ionosphere.arff iris.2D.arff iris.arff kdd_coil_test-1.arff kdd_coil_test-2.arff kdd_coil_test-3.arff kdd_coil_test-4.arff kdd_coil_test-5.arff kdd_coil_test-6.arff kdd_coil_test-7.arff kdd_coil_train-1.arff kdd_coil_train-3.arff kdd_coil_train-4.arff kdd_coil_train-5.arff kdd_coil_train-6.arff kdd_coil_train-7.arff kdd_el_nino-small.arff kdd_internet_usage.arff kdd_ipums_la_97-small.arff kdd_ipums_la_98-small.arff kdd_ipums_la_99-small.arff kdd_JapaneseVowels_test.arff kdd_JapaneseVowels_train.arff kdd_synthetic_control.arff kdd_SyskillWebert-Bands.arff kdd_SyskillWebert-BioMedical.arff kdd_SyskillWebert-Goats.arff kdd_SyskillWebert-Sheep.arff kdd_UNIX_user_data.arff kin8nm.arff kr-vs-kp.arff labor.arff landsat_test.arff landsat_train.arff letter.arff liver-disorders.arff longley.arff lowbwt.arff lung-cancer.arff lymph.arff machine_cpu.arff mbagrade.arff meta.arff mfeat-factors.arff mfeat-fourier.arff mfeat-karhunen.arff mfeat-morphological.arff mfeat-pixel.arff mfeat-zernike.arff molecular-biology_promoters.arff monks-problems-1_test.arff monks-problems-1_train.arff monks-problems-2_test.arff monks-problems-2_train.arff monks-problems-3_test.arff monks-problems-3_train.arff mushroom.arff mv.arff nursery.arff optdigits.arff page-blocks.arff pasture.arff pbc.arff pendigits.arff pharynx.arff pol.arff pollution.arff postoperative-patient-data.arff primary-tumor.arff puma32H.arff puma8NH.arff pwLinear.arff pyrim.arff quake.arff ReutersCorn-test.arff ReutersCorn-train.arff ReutersGrain-test.arff ReutersGrain-train.arff schlvote.arff segment-challenge.arff segment-test.arff segment.arff sensory.arff servo.arff sick.arff sleep.arff solar-flare_1.arff solar-flare_2.arff sonar.arff soybean.arff spambase.arff spectf_test.arff spectf_train.arff spectrometer.arff spect_test.arff spect_train.arff splice.arff sponge.arff squash-stored.arff squash-unstored.arff stock.arff strike.arff supermarket.arff triazines.arff unbalanced.arff vehicle.arff veteran.arff vineyard.arff vote.arff vowel.arff water-treatment.arff waveform-5000.arff weather.nominal.arff weather.numeric.arff white-clover.arff wine.arff wisconsin.arff zoo.arff

2016-08-03

uci聚类测试数据集

uci聚类测试数据集

2016-08-03

鸢尾花150条数据集

weka上使用cluster测试UCI上的鸢尾花数据,适合初学者。

2016-08-01

鸢尾花聚类测试数据

UcI(国际上常用的标准测试数据集)中的Iris(鸢尾属植物)数据,用于聚类分析。

2016-08-01

《实战Matlab之并行程序设计》程序代码

《实战Matlab之并行程序设计》程序代码 书后源码

2016-07-19

WEKA入门用的银行数据集bank-data

用于weka初入门学习,银行数据包括600实例,是data-bank.arff 文件,经过csv 处理之后的可经weka使用的文件。-The learn for weka early entry, bank data including 600 instances of the the the data-bank.arff file after csv after processing the file via weka.

2016-07-06

中科院分词ICTCLAS5.0_JNI

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

2016-06-22

吴恩达老师 机器学习入门首选

这算是机器学习一套非常适合入门(不过到了后面也相当深)的敲门砖,能够把很抽象的机器学习过程讲得很清楚,小弟看了这套公开课资料表示那真叫一个受益匪浅啊。

2016-05-17

springmvc中实现quartz定时任务[每分钟的第3秒执行]

springmvc中实现quartz定时任务[每分钟的第3秒执行]

2016-05-10

ksoap2 android 3.6.0实现webService通信

实现android与服务器之间通信的包

2016-05-10

oracle在win7下卸载、安装步骤

该文档旨在描述在win7下如何卸载oracel数据库,同时提供重新安装的步骤图解。

2013-08-12

一个页面多个页签显示

一个页面多个页签显示,这里只是提供一个样式,具体功能根据需求写。

2013-04-28

自动生成随机密码

随机生成 数字六位密码,自己也可以修改密码长度,记得引commons-lang.jar包

2013-04-19

随机密码数

随机生成六位字母数字组合的密码,自己也可以扩展成其他位数。

2013-04-09

Map里面containsKey的用法

本代码只在简单的实现Map里面的一个containKey的方法,返回true或者false

2013-01-09

点击提示框提示信息消失

当鼠标点击文本框,提示信息消失 提示信息框,最多允许输入150个汉字<br/> <div> &lt;textarea id="info" rows="5" cols="50" &lt;/div>

2013-01-08

图表生成chart

本系统主要是通过ajax请求json格式的数据,然后将json格式的数据转换成饼图或者柱状图。

2012-11-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除