自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 LDA主题模型试验

LDA模型取得较好的结果,最好满足以下条件:1.清理一些无法反映文档主题的词;2.文档的主题比较集中;3.设置较大的迭代次数,由于LDA Gibbs抽样算法的复杂度较高,每次训练都要运行很长时间,导致没有时间去尝试其它的参数组合,也许尝试一些其它的参数组合会得到比本文更好的结果。

2016-01-18 22:56:49 7567 2

原创 一个简化版的Java多线程爬虫

情形一:最开始执行第一个爬虫,取出任务队列的整数后,队列为空,提前退出循环,解决方法是:当队列为空并且还有任务正在执行时,让主线程休眠等待有线程完成任务,队列变成非空,从而线程池释放线程执行新的任务。情形二:当线程中同一时刻执行任务的线程个数为最大值4时,暂时无法释放线程立即执行新的任务,解决方法是:让主线程休眠直至有线程任务完成。

2015-12-13 11:46:10 1536

原创 Java单机爬虫

1.上述爬虫是单线程的,可以对代码改进,增加一个工作线程池,这些线程并行地从url队列中取出url进行处理。或者更好的解决方案是分布式爬虫,在这种情况下将url队列和已访问过的url存储在数据库中,同时使所有节点能够访问该数据库。看了一阵子的多线程的文档,看得头大,想想自己是搞数据挖掘的,还是搞分布式爬虫更对路,知乎上有牛人建议用redis做分布式队列,有机会尝试下。2.上述代码只是将网页的网址和标题保存在文件中,如果想做文本挖掘,需要保存网页的全部文本,可以试一下jsoup或apache tika。

2015-11-13 17:07:55 1866 1

原创 初试Spark之K-Means聚类算法实现

自学Spark有将近一个月了,一直想找一个稍微复杂点的例子练练手,K均值聚类算法实现是个不错的例子,于是有了这篇博客。K均值聚类算法的原理本身很简单,大概思想就是:选取初始质心,根据这些质心将样本点聚类,聚类之后计算新的质心,然后重新将样本点聚类,不断循环重复“产生质心,重新聚类”这一过程,直至聚类效果不再发生明显变换。

2015-02-21 16:37:51 6703 1

原创 Hadoop之K-Means聚类算法

Begin 读取inputPath,从中选取前k个点作为初始质心,将质心数据写入centerPath; While 聚类终止条件不满足 在Mapper阶段,读取inputPath,对于key所对应的点,遍历所有的质心,选择最近的质心,将该质心的编号作为键, 该点的编号作为值传递给Reducer; 在Reducer阶段,将Mapper阶段传递过来的

2014-11-27 21:10:06 8733 6

原创 线性可分情形下支持向量机学习的SMO算法

求解上述优化模型

2014-10-12 16:51:04 1231

原创 随机森林算法实现

随机森林是一个包含多个决策树的分

2014-10-02 17:48:18 6076 2

原创 AdaBoost分类算法实现

一.本文前半部分使用Python语言实现

2014-09-18 22:43:16 1405

原创 CART分类树算法实现

对于当前训练数据集,遍历所有属性及其所有可能的切分点,寻找最佳切分属性及其最佳切分点, 使得切分之后的基尼指数最小,利用该最佳属性及其最佳切分点将训练数据集切分成两个子集,分别对应 着判别结果是true和判别结果是false。

2014-08-27 19:28:01 2246

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除