数据挖掘与机器学习
文章平均质量分 80
LJBlog2014
专注于数学模型、数据挖掘及机器学习
展开
-
AdaBoost分类算法实现
一.本文前半部分使用Python语言实现原创 2014-09-18 22:43:16 · 1404 阅读 · 0 评论 -
随机森林算法实现
随机森林是一个包含多个决策树的分原创 2014-10-02 17:48:18 · 6075 阅读 · 2 评论 -
线性可分情形下支持向量机学习的SMO算法
求解上述优化模型原创 2014-10-12 16:51:04 · 1230 阅读 · 0 评论 -
CART分类树算法实现
对于当前训练数据集,遍历所有属性及其所有可能的切分点,寻找最佳切分属性及其最佳切分点, 使得切分之后的基尼指数最小,利用该最佳属性及其最佳切分点将训练数据集切分成两个子集,分别对应 着判别结果是true和判别结果是false。原创 2014-08-27 19:28:01 · 2246 阅读 · 0 评论 -
初试Spark之K-Means聚类算法实现
自学Spark有将近一个月了,一直想找一个稍微复杂点的例子练练手,K均值聚类算法实现是个不错的例子,于是有了这篇博客。K均值聚类算法的原理本身很简单,大概思想就是:选取初始质心,根据这些质心将样本点聚类,聚类之后计算新的质心,然后重新将样本点聚类,不断循环重复“产生质心,重新聚类”这一过程,直至聚类效果不再发生明显变换。原创 2015-02-21 16:37:51 · 6701 阅读 · 1 评论 -
Java单机爬虫
1.上述爬虫是单线程的,可以对代码改进,增加一个工作线程池,这些线程并行地从url队列中取出url进行处理。或者更好的解决方案是分布式爬虫,在这种情况下将url队列和已访问过的url存储在数据库中,同时使所有节点能够访问该数据库。看了一阵子的多线程的文档,看得头大,想想自己是搞数据挖掘的,还是搞分布式爬虫更对路,知乎上有牛人建议用redis做分布式队列,有机会尝试下。2.上述代码只是将网页的网址和标题保存在文件中,如果想做文本挖掘,需要保存网页的全部文本,可以试一下jsoup或apache tika。原创 2015-11-13 17:07:55 · 1863 阅读 · 1 评论 -
一个简化版的Java多线程爬虫
情形一:最开始执行第一个爬虫,取出任务队列的整数后,队列为空,提前退出循环,解决方法是:当队列为空并且还有任务正在执行时,让主线程休眠等待有线程完成任务,队列变成非空,从而线程池释放线程执行新的任务。情形二:当线程中同一时刻执行任务的线程个数为最大值4时,暂时无法释放线程立即执行新的任务,解决方法是:让主线程休眠直至有线程任务完成。原创 2015-12-13 11:46:10 · 1535 阅读 · 0 评论 -
LDA主题模型试验
LDA模型取得较好的结果,最好满足以下条件:1.清理一些无法反映文档主题的词;2.文档的主题比较集中;3.设置较大的迭代次数,由于LDA Gibbs抽样算法的复杂度较高,每次训练都要运行很长时间,导致没有时间去尝试其它的参数组合,也许尝试一些其它的参数组合会得到比本文更好的结果。原创 2016-01-18 22:56:49 · 7566 阅读 · 2 评论