自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (3)
  • 收藏
  • 关注

原创 20newsgroups数据集在spark上用naivebayes跑的结果

这两天看了看Spark机器学习的第9章:Spark高级文本处理技术,用朴素贝叶斯跑了跑20ng这个著名的文本分类数据集,结果还可以,代码如下,注释掉的代码是中间做实验的,有用的:package examplesimport breeze.linalg.{SparseVector => BSV, norm}import org.apache.spark.SparkContextimpor

2016-12-20 17:02:50 1549 1

原创 渐开线python

渐开线还是本科的时候学机械原理学过,当时是齿轮的渐开线,做实验需要数据集,昨天画了阿基米德螺旋线,但是是极坐标形式的,难以转化为笛卡尔坐标,今天看到了渐开线的直角坐标公式,画了画渐开线,另外,直角坐标中(x,y)绕原点逆时针旋转theta角度有公式,需要推导,记得可以用复数,e^(i*theta)来做:import numpy as npimport matplotlib.pyplot as

2016-12-18 15:57:07 2066 1

原创 K-PRSCAN算法实现

今天看了一篇论文,K-PRSCAN: A clustering method based on PageRank,基于PageRank的一个聚类算法,该算法前面很简单,就是迭代得到最终的PR向量,最后对PR向量进行聚类。最后一步相当与对一个double类型的数组进行聚类,本来这个是一个基于距离的聚类问题,作者搞了个scanning factor,其实就是一种knn的变形,其实效果并不是很好,虽然不

2016-12-18 14:40:03 506

原创 阿基米德螺旋线

阿基米德螺旋线,rho=a+b*theta,画了一个图:import numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot')a, b = 2.0, 2.0n = 6theta = np.linspace(0, 2 * np.pi, num=2000)plt.subplot(111, projection=

2016-12-17 16:56:12 4099

原创 KwikCluster算法实现

KwikCluster算法是一种典型的Correlation Clustering算法,实现如下:package clustering.CorrelationClusteringimport scala.collection.mutableimport scala.io.Source/** * Created by fhqplzj on 16-12-17 at 下午12:54.

2016-12-17 13:59:06 624

原创 标签检查

源代码是/home/fhqplzj/.m2/repository/org/apache/spark/spark-mllib_2.11/2.0.0/spark-mllib_2.11-2.0.0-sources.jar!/org/apache/spark/mllib/util/DataValidators.scala主要作用是标签检查:package clustering.garbagei

2016-12-10 10:43:45 604

原创 解析double, array, tuple,广义表的解析

源代码是:/home/fhqplzj/.m2/repository/org/apache/spark/spark-mllib_2.11/2.0.0/spark-mllib_2.11-2.0.0-sources.jar!/org/apache/spark/mllib/util/NumericParser.scalaspark里面的一个函数,用java重写了一遍:package cluster

2016-12-10 09:51:46 466

原创 分布临界值表python

主要用到了scipy中的norm,chi2,t,f分布,生成了概率分布临界值表,用到两个函数,一个是ppf(Percent Point Function),一个是isf(Inverse Survival Function):import numpy as npfrom scipy.stats import chi2from scipy.stats import tfrom scipy.s

2016-12-01 16:21:23 7766

算法技术与信息学竞赛

内功心法,主要内容是算法技术与信息学竞赛的学习指导!

2011-07-04

线性规划与网络流(ACM培训资料)

线性规划与网络流,ACM内部培训资料!!!!!!!

2011-07-04

JAVA类的反射机制

内附源码和相关的PPT,有兴趣的人可以看一看啊!

2011-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除