Windows安装HBase,伪分布式,无需HDFS 在Windows上装hadoop生态组件是一件麻烦事,但是HBase的安装却可以非常简单。目前主流的安装文档都需要装Hadoop,这里介绍一个简单的单机版安装方法,适合用来学习。1. 下载HBASE,以及Hadoop模拟工具winutils.exe下载地址都不发了,还是很容易找到的,而winutils.exe是用来模拟Hadoop的,只要有这个文件就可以了,这个也可以找得到,例如这个博客下面的留言就有。注意要把winutils.exe放在bin目录里。后面HADOOP_HOME不要指向bin,而是指
记录一次失败的Windows上milvus安装 milvus是一个向量近似搜索库,未来应该会在很多领域有大用途。最近一年才出的,所以想赶个时髦。但是milvus跨平台不是像Java语言这种方式,而是通过docker安装的形式。没玩过docker,好吧,正好也试试吧。在Windows上装docker,有两种选择:一个是官网推荐的docker for desktop, 适合win10专业版旗舰版教育版。但家庭版不支持,另一个就是docker toolbox。很多win10 home, win7, win8的系统都可以用。我是win10 ho...
webmagic 源码学习(2) webmagic的爬虫基本架构,其设计可以让人只需要实现PageProcessor中的process方法,完成列表页、详情页相应逻辑即可。而很多网站也许就只有简单的这两种页面的逻辑,webmagic还提供了更简单的表达两个页面解析逻辑的使用方法:一:注解;二: 正则组合。 注解 注解是Java里面用得多但写的不多的,我本人也没有概念,趁此机会学习一下Java注解。这篇博文讲...
webmagic源码学习(1) 如今获取互联网信息是一种很普遍的需要,用任何语言实现一个由HTTP发起请求获取数据功能都很容易,但要完整地处理可能面对的其他问题就有点麻烦了。因为爬虫涉及的点不少,因此阅读一个开源爬虫能借鉴一些优秀的设计理念,有学习价值。大名鼎鼎的scrapy,只需要编写页面处理的逻辑。我选了个模仿它写的Java系的爬虫学习:webmagic。 架构上webmagic采取了scrapy架构:...
win10安装TensorFlow+keras 跟风玩深度学习,最简单的keras下手看看先。用anaconda开环境安装TensorFlow的CPU和GPU版本,用pip install 安装keras其他的lib,下载whl本地安装更好。
notepad++ 64位安装json插件JStool 64bit的 notepad++不支持plugin manager了,只能手动安装插件json格式化工具:JSToolhttp://www.softpedia.com/get/Office-tools/Text-editors/Junwen-JSMin.shtml, 下载x64 unicode版本 dll放进plugin目录里就搞定了
用elasticsearch和kibana 进行简单的实时数据报表分析 elasticsearch+kibana能帮助你轻松完成一个实时日志报表的功能。es需要制定自己的template, kibana要注意时区问题。
对GraphChi的Parallel Sliding Window的理解与随想 GraphChi设计成可以在个人计算机上高效进行大规模计算的框架,其中在模型不能一次性读入内存的时候,用到了PSW算法,核心是用连续读写来代替的随机读写。在我自己写单机算法时候也考虑过模型如果内存装不下问题,当时正好看到graphchi的PPT,也就想明白是怎么做到的,虽然我没有完整读完PSW的资料,但我发现我前端时间在做feluca设计的数据划分方式其实和PSW本质一样的,所以我感觉自己也算理解
利用Solr完成向量乘以矩阵功能:以协同过滤算法ItemCF为例 很多应用的计算最终都转化为矩阵相乘来完成,例如推荐算法中的协同过滤就可以套上去。协同过滤(collaborative filtering)是推荐系统中一类广泛使用的方法,协同过滤中两种比较出名的方法item-based CF、user-based CF。itemCF方法更简单,推荐理由也更温和,将是本文介绍的实践内容。
配置Solr中文分词器IK以及ansj,支持动态修改用户词库。 经常看到不少人问solr的IK分词如何配置,如何实现中文动态词库添加这类问题,中文分词看来还是solr使用的一个容易卡住的地方。其实solr自带中文分词smartcn,它是个ictclas智能分词的java版。如果想体验一下smartcn的效果是比较简单的,配上对应的tokenizerFactory就可以了,但smartcn不支持动态增加词库。我们都知道一般词库都是单例,想动态修改词库要么保证
hadoop,hbase,hive 安装snappy压缩 最近又安装了一次hadoop系列,以前装过几次,但总也是磕磕碰碰的,本来想这次安装一步到位,可惜以前记录不够详细,中间还是过程还是有些遗漏,这次把过程详细记录起来。hadoop-1.1.2, hbase-0.95-hadoop1, hive-0.10 + snappy压缩。中间遇到不少坑,记录下来;由于这次目标是三件套一步到位,因此配置的时候是一块配置了,三台ubuntu机器分别为zmhad
自动补全(智能提示)原理与实现 自动补全,英文叫autocomplete,好像也叫智能提示,就是用户在输入框敲一个字符会弹出下拉列表提示候选词给用户,方便用户输入,提升用户体验。 网上多是JS如何实现,用ajax请求拿到数据就可以了,这里分享一下后台实现的一些思路。如果对性能和效果要求不高的话,可以直接在数据库中用like的方式去匹配候选词集合;或者在一个检索系统上也可以通过查询前缀
搜索词纠错(拼写检查)、相关搜索的原理与实现 相关搜索是检索功能的一个扩展,用来告诉用户自己输入查询词的情况。如果输入错了,可能会纠错提示用户:“想找的是不是” 。另外还会在显著位置提供与输入查询词相关的其他查询词,例如百度结果页下面的提示, 而对于电商网站这两个功能会合在一起,下面分别说说我对这两个任务的理解。一、纠错功能,英文叫做spellcheck,在英文上做纠错比较直接,就是看单词的