- 博客(5)
- 资源 (7)
- 收藏
- 关注
原创 windows/linux 安装gensim简易方法
为了使用wiki百科来训练模型( 中英文维基百科语料上的Word2Vec实验 )我需要安装python和gensim。在gensim安装上用了两三天还没装好,一开始是在服务器上装,各种教程都试了个遍还是不行,后来在我本机windows上装,也是各种坎坷。最后找到正确的方法,其实只需要两步:1. 安装Anaconda这是一个科学计算环境,会帮你把很多依赖装起来。
2015-10-26 15:53:18 19562 6
转载 Mahout学习路线图
Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从201
2015-10-13 18:06:21 627
转载 淘宝京东类电商评论标签化的思路
最近发现京东的评论也开始标签化了,虽然相对于淘宝的标签显得比较生硬,但是也可以看出标签化是评论的一个趋势,我个人比较喜欢看评论说话,作为一个IT工作者,曾经思考了下评论的标签化工作可能涉及的技术,正好微博有人问起,现在简单的整理如下。 评论标签化的作用 评论的标签化的作用首先体现在用户体验好了,相对于看评论,标签可读性更好,更加明了,用户一眼便能看出好坏,当然电商是不会把坏的结
2015-10-13 18:02:31 4526 1
原创 【用户行为分析】【Mahout】调研学习之一:分析算法简要总结
引言:Mahout是什么Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。Mahout为数据分析人员,解决了大数据的门槛;为算法工程师,提供基础的算法库;为Hadoop开发人员,提供了数据建模的标准;为运维人员,打通了和Hado
2015-10-13 17:58:44 1762
转载 word2vec使用指导
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licstar.net/archives/328这篇博客)1.词向量是什么自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前
2015-10-09 09:41:14 1371
Efs(Ext上二次开发,标签形式使用Ext) Demo官方项目实例
2012-04-07
Efs(Ext上二次开发,标签形式使用Ext) API文档
2012-04-07
EfsFrame框架(EXT上二次开发)源代码
2012-04-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人