java编程
相国
抱歉有些留言回复可能没看到,CS硕士,
文本挖掘、DM算法、Python数据、Java后端
展开
-
基于评分数据的推荐算法实现:slopeone和矩阵分解
近几年推荐算法研究得比较火热,得益于netflix的百万大奖。推荐算法有多种分法,有人喜欢分成基于内容和基于用户行为的,而主流的文献还是从算法分得多:即neighborhood-based和基于factorization的。 neighbor-based方法比较早,主流的user-base和item-base,其思想都是猜测用户会喜欢和他口味一致的东西。矩阵分解直接把预测问题转换成一个估计对评分矩原创 2012-01-05 20:43:24 · 10291 阅读 · 43 评论 -
二进制串模糊搜索的Java实现
这个问题其实是从之前博客(http://blog.csdn.net/lgnlgn/archive/2010/11/14/6008498.aspx)介绍的爬虫去重的论文中的一个内容,问题是这样描述的:给定N个f位的指纹集合C,对一个输入指纹f’,如何找出C中与f’汉明距离小于k的所有指纹? 具体地,论文里N=80亿,f=64,K=3。 64位取3的汉明距离可能性一共有C(64,3) >原创 2011-06-04 21:37:00 · 2284 阅读 · 7 评论 -
smartcn优化方案
smartcn,基于HMM模型的一套智能分词器,是ictclas的java简化版,原理网上已经能找到,也可以看我前面写的 http://blog.csdn.net/lgnlgn/archive/2010/06/13/5669855.aspx smartcn 通过计算能提高分词精度(比如 和服 的问题),这也会导致一个语义连贯的短语可能在不同的上下文产生不同的切分结果,因此用来做搜索引擎的原创 2011-03-26 16:25:00 · 1985 阅读 · 0 评论 -
java远程调试、监控虚拟机
在开发环境写好并测试过的服务程序,部署到服务器去,结果未必理想,一是数据源可能必须在服务器上获取,二是可能会出现开发机没见过的问题,所以有必要知道一些远程调试和分析的方法;最近查阅了一些资料,现在就把过程记录一下。 一、 在eclipse中远程调试 1.1 在你的 JAVA启动命令后加入-server -Xdebug -Xrunjdwp:transport=dt_socket,serv原创 2013-03-22 17:01:17 · 3144 阅读 · 0 评论 -
一个数据挖掘算法的项目:dami
(更新于2012/11/15)关注和学习数据挖掘不少年,现在数据挖掘算法已经非常多了,比较出名的基本都能找到实现好的。掌握一个算法原理十分重要,但我觉得实现一遍算法对于算法的如何适用数据才是最有帮助的。一些挖掘工具遇到大量点的数据集就吃不消,可能是对内存不珍惜,可能是对计算不节俭等等。感觉到写出一个能在海量规模下实用的算法应该还是有意义,能锻炼技术。最近业余时间多一些,也就开始想把之前工作之余写过原创 2012-07-03 17:36:31 · 4867 阅读 · 2 评论 -
一个简易的数据挖掘计算平台项目: feluca
业余数据挖掘项目feluca想法的完整记录原创 2014-06-30 12:03:55 · 3762 阅读 · 1 评论 -
webmagic源码学习(1)
如今获取互联网信息是一种很普遍的需要,用任何语言实现一个由HTTP发起请求获取数据功能都很容易,但要完整地处理可能面对的其他问题就有点麻烦了。因为爬虫涉及的点不少,因此阅读一个开源爬虫能借鉴一些优秀的设计理念,有学习价值。大名鼎鼎的scrapy,只需要编写页面处理的逻辑。我选了个模仿它写的Java系的爬虫学习:webmagic。 架构上webmagic采取了scrapy架构:...原创 2018-02-24 18:23:15 · 683 阅读 · 0 评论 -
webmagic 源码学习(2)
webmagic的爬虫基本架构,其设计可以让人只需要实现PageProcessor中的process方法,完成列表页、详情页相应逻辑即可。而很多网站也许就只有简单的这两种页面的逻辑,webmagic还提供了更简单的表达两个页面解析逻辑的使用方法:一:注解;二: 正则组合。 注解 注解是Java里面用得多但写的不多的,我本人也没有概念,趁此机会学习一下Java注解。这篇博文讲...原创 2018-04-03 15:55:01 · 904 阅读 · 0 评论