- 博客(8)
- 资源 (3)
- 收藏
- 关注
原创 20newsgroups数据集在spark上用naivebayes跑的结果
这两天看了看Spark机器学习的第9章:Spark高级文本处理技术,用朴素贝叶斯跑了跑20ng这个著名的文本分类数据集,结果还可以,代码如下,注释掉的代码是中间做实验的,有用的:package examplesimport breeze.linalg.{SparseVector => BSV, norm}import org.apache.spark.SparkContextimpor
2016-12-20 17:02:50 1549 1
原创 渐开线python
渐开线还是本科的时候学机械原理学过,当时是齿轮的渐开线,做实验需要数据集,昨天画了阿基米德螺旋线,但是是极坐标形式的,难以转化为笛卡尔坐标,今天看到了渐开线的直角坐标公式,画了画渐开线,另外,直角坐标中(x,y)绕原点逆时针旋转theta角度有公式,需要推导,记得可以用复数,e^(i*theta)来做:import numpy as npimport matplotlib.pyplot as
2016-12-18 15:57:07 2066 1
原创 K-PRSCAN算法实现
今天看了一篇论文,K-PRSCAN: A clustering method based on PageRank,基于PageRank的一个聚类算法,该算法前面很简单,就是迭代得到最终的PR向量,最后对PR向量进行聚类。最后一步相当与对一个double类型的数组进行聚类,本来这个是一个基于距离的聚类问题,作者搞了个scanning factor,其实就是一种knn的变形,其实效果并不是很好,虽然不
2016-12-18 14:40:03 506
原创 阿基米德螺旋线
阿基米德螺旋线,rho=a+b*theta,画了一个图:import numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot')a, b = 2.0, 2.0n = 6theta = np.linspace(0, 2 * np.pi, num=2000)plt.subplot(111, projection=
2016-12-17 16:56:12 4099
原创 KwikCluster算法实现
KwikCluster算法是一种典型的Correlation Clustering算法,实现如下:package clustering.CorrelationClusteringimport scala.collection.mutableimport scala.io.Source/** * Created by fhqplzj on 16-12-17 at 下午12:54.
2016-12-17 13:59:06 624
原创 标签检查
源代码是/home/fhqplzj/.m2/repository/org/apache/spark/spark-mllib_2.11/2.0.0/spark-mllib_2.11-2.0.0-sources.jar!/org/apache/spark/mllib/util/DataValidators.scala主要作用是标签检查:package clustering.garbagei
2016-12-10 10:43:45 604
原创 解析double, array, tuple,广义表的解析
源代码是:/home/fhqplzj/.m2/repository/org/apache/spark/spark-mllib_2.11/2.0.0/spark-mllib_2.11-2.0.0-sources.jar!/org/apache/spark/mllib/util/NumericParser.scalaspark里面的一个函数,用java重写了一遍:package cluster
2016-12-10 09:51:46 466
原创 分布临界值表python
主要用到了scipy中的norm,chi2,t,f分布,生成了概率分布临界值表,用到两个函数,一个是ppf(Percent Point Function),一个是isf(Inverse Survival Function):import numpy as npfrom scipy.stats import chi2from scipy.stats import tfrom scipy.s
2016-12-01 16:21:23 7766
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人