LJBlog2014-CSDN博客

原创 LDA主题模型试验

LDA模型取得较好的结果，最好满足以下条件：1.清理一些无法反映文档主题的词；2.文档的主题比较集中；3.设置较大的迭代次数，由于LDA Gibbs抽样算法的复杂度较高，每次训练都要运行很长时间，导致没有时间去尝试其它的参数组合，也许尝试一些其它的参数组合会得到比本文更好的结果。

2016-01-18 22:56:49 7567 2

原创一个简化版的Java多线程爬虫

情形一：最开始执行第一个爬虫，取出任务队列的整数后，队列为空，提前退出循环，解决方法是：当队列为空并且还有任务正在执行时，让主线程休眠等待有线程完成任务，队列变成非空，从而线程池释放线程执行新的任务。情形二：当线程中同一时刻执行任务的线程个数为最大值4时，暂时无法释放线程立即执行新的任务，解决方法是：让主线程休眠直至有线程任务完成。

2015-12-13 11:46:10 1536

1.上述爬虫是单线程的，可以对代码改进，增加一个工作线程池，这些线程并行地从url队列中取出url进行处理。或者更好的解决方案是分布式爬虫，在这种情况下将url队列和已访问过的url存储在数据库中，同时使所有节点能够访问该数据库。看了一阵子的多线程的文档，看得头大，想想自己是搞数据挖掘的，还是搞分布式爬虫更对路，知乎上有牛人建议用redis做分布式队列，有机会尝试下。2.上述代码只是将网页的网址和标题保存在文件中，如果想做文本挖掘，需要保存网页的全部文本，可以试一下jsoup或apache tika。

2015-11-13 17:07:55 1866 1

原创初试Spark之K-Means聚类算法实现

自学Spark有将近一个月了，一直想找一个稍微复杂点的例子练练手，K均值聚类算法实现是个不错的例子，于是有了这篇博客。K均值聚类算法的原理本身很简单，大概思想就是：选取初始质心，根据这些质心将样本点聚类，聚类之后计算新的质心，然后重新将样本点聚类，不断循环重复“产生质心，重新聚类”这一过程，直至聚类效果不再发生明显变换。

2015-02-21 16:37:51 6703 1

原创 Hadoop之K-Means聚类算法

Begin 读取inputPath，从中选取前k个点作为初始质心，将质心数据写入centerPath； While 聚类终止条件不满足在Mapper阶段，读取inputPath，对于key所对应的点，遍历所有的质心，选择最近的质心，将该质心的编号作为键，该点的编号作为值传递给Reducer；在Reducer阶段，将Mapper阶段传递过来的

2014-11-27 21:10:06 8733 6