大数据
且听风雨999
这个作者很懒,什么都没留下…
展开
-
mahout 资料 收集 集锦
Canopy Clustering(mahout实现)http://www.r66r.net/?p=3045原创 2013-11-13 22:36:49 · 1043 阅读 · 0 评论 -
Hadoop安装 SSH无密码验证 登录
http://leezk.com/2013/09/hadoop/hadoop-ssh%E6%97%A0%E5%AF%86%E7%A0%81%E9%AA%8C%E8%AF%81-217SSH无密码验证 应该算是Hadoop环境配置中最麻烦的一个环节了,稍不主要就会出差错。Hadoop的安装配置其实很简单,但是实现 SSH无密码验证 并不那么轻松配成功,下面是我配置 SSH转载 2013-11-09 22:08:10 · 2875 阅读 · 0 评论 -
solr 使用
数据导入 java -jar post.jar *.xml java -Ddata=args -jar post.jar '42' java -Ddata=stdin -jar post.jar java -Durl=http://localhost:8983/solr/update/csv -Dtype=text/csv -jar post.jar *.原创 2013-11-25 21:11:45 · 1040 阅读 · 0 评论 -
hadoop 错误
Invalid directory in dfs.data.dir: Incorrect permission for /hadoop/hadoop-data, expected: rwxr-xr-x, while actual: rwxrwxr-x。hadoop集群dfs.data.dir目录权限问题导致节点无法启动原创 2013-11-13 21:16:06 · 1201 阅读 · 0 评论 -
deep learning in NLP
Word2vec在事件挖掘中的调研 sehttp://blog.csdn.net/shuishiman/article/details/20769437原创 2014-07-09 10:23:32 · 1398 阅读 · 0 评论 -
nlp 文本技术归纳
一直在做文本处理,但感觉做的很分散 没有系统,也没有发现很好的关于NLP的书籍。如果有,请推荐。 现在尝试着总结自己遇到的文本处理技术。1、工具linux 文本处理工具 awk sed 比较常用 推荐两篇左耳朵耗子的博客。我很喜欢的大牛,还有幸和他聊了20分钟,O(∩_∩)O哈哈~ AWK 简明教程 sed 简明教程 python 文本处理 这个也是文本处理的常原创 2015-03-29 09:41:16 · 3613 阅读 · 0 评论 -
文本特征提取方法研究
文本特征提取方法研究 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖转载 2015-06-02 15:12:44 · 12295 阅读 · 0 评论 -
hadoop 2.2 错误总结
Hadoop 2.2.0 - warning: You have loaded library /home/hadoop/2.2.0/lib/native/libhadoop.so.1.0.0 which might have disabled stack guard.Unable to load native-hadoop library for your platform.原创 2013-11-09 22:06:39 · 28670 阅读 · 1 评论