自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (3)
  • 收藏
  • 关注

原创 Spark 基于item和user 的协同过滤实现

mahout已经提供了 item-based cf 算法,但是要想在 mahout 算法上修改item-based cf 相对来说比较繁琐,比如改进相似度或者改进推荐结果计算公式,更加令人头疼的是mahout 修改比较难调试,相比来说 spark 实现起来更加简单方便,同时 spark shell 在调试阶段特别方便。本文使用 spark 编写了 item-based和 user-based 两种协同过虑算法。

2015-07-15 11:31:21 12212 4

翻译 Spark GraphX

GraphX是spark的一个新组件用于图和并行图计算。在一个高水平,GraphX通过引进一个新的图抽象扩展了spark RDD:带有顶点和边属性的有向多重图。为了支持图计算,GraphX 提供了很多基本的操作(像 subgraph, joinVertices, and aggregateMessages)和pregel的一个优化变种。除此之外,GraphX 包含了一个正在增长的图算法和图构造的集合来简化图的分析任务

2015-06-15 10:51:17 4865 1

翻译 spark streaming

Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据,也可以通过由 高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到Spark的

2015-06-12 19:01:59 3395

翻译 spark 基础和spark sql翻译

Spark1.3.0 基础文档和spark1.3.0 sql 部分翻译

2015-06-08 15:17:05 1999

原创 mahout 实战

本文整理了mahout比较常用的算法,部分章节理论知识进行了引用,小节后有引用网址,对mahout中的多种算法,使用中文实例进行讲解,像k-means中文聚类,朴素贝叶斯中文分类等,最后讲解了推荐算法应用的一般流程。

2015-06-08 15:05:49 5149

原创 Spark 批量写数据入HBase

介绍  工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据,花费时间大概20分钟左右,本文Spark可用核数量为20。

2015-06-02 15:26:22 3698 4

原创 spark + ansj 对大数据量中文进行分词

目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。

2015-05-14 14:02:51 8503 11

原创 推荐算法注意事项总结

本文总结了多种推荐场景中的注意事项,或者推荐中比较关键的因素,不涉及算法描述,仅仅说明关注点,仅供参考。推荐算法有很多种,从算法的角度来说,我认为主要由以下几种:协同过滤系列(基于item和user),机器学习分类系列(喜欢和不喜欢二分类,或者回归中的分值代表喜欢程度),矩阵分解系列(mahout ALS算法,netflix举行推荐大赛获奖算法),关联规则(电商常用)。本文将从以上几种系列进行总结。

2015-04-03 15:33:13 2284

原创 spark1.3.0 on yarn 构建(hive0.12.0)

1、编译spark源文件下载spark时,可以选择对应自己hadoop版本的pre-built版下载最新spark1.3.0。如果没有自己hadoop版本对应的预构建版本,或者spark对应的hive版本不一致等都需要重新构建构建方法详情见spark官网网址为https://spark.apache.org/docs/latest/building-spark.html本文是使用m

2015-04-03 14:37:38 897

原创 spark 1.3.0 将dataframe数据写入Hive分区表

从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API。DataFrame将数据写入hive中时,默认的是hive默认数据库,insertInto没有指定数据库的参数,本文使用了下面方式将数据写入hive表或者hive表的分区中,仅供参考。

2015-04-03 11:41:21 7835 1

原创 spark sql on hive安装问题解析

安装spark时,默认的spark assembly 不包含hive支持。spark官网上说明“Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly.” ,要想spark sql在hive上运行,需要编辑与自己使

2015-01-06 11:19:05 6536

原创 spark on yarn运行产生缺jar包错误及解决办法

spark在很多时候由于配置的原因造成缺少jar包的情况,本文介绍了两种缺少jar包情况,并介绍了如何使用spark-submit的--jars和--driver-class-path参数将jar包动态调用。

2014-12-09 15:42:05 9804 1

原创 python 过滤中文、英文标点特殊符号

在工作中经常遇到很多特殊的标点符号,像中文标点符号,英文标点符号。英文的标点符号比较容易过滤,而过滤中文的标点符号较麻烦。下面是从邮件中过滤特殊符号的方式供参考。

2014-12-05 10:41:04 92262 5

原创 深入理解mahout基于hadoop的协同过滤流程

最近做mahout itembased collaborative filtering项目,今天把mahout 协同过滤的流程进行了一下梳理,以便能够更好了解mahout itembased协同过滤设计方式,以及能够对mahout itembased协同过滤源码进行修改。分享一下,希望对大家有所帮助。

2014-11-13 11:14:56 2353

原创 Mahout基于hadoop实现itembased协同过滤流程解析

首先,我们分析mahout itembased协同过滤,必须先找到执行协同过滤的触发类org.apache.mahout.cf.taste.hadoop.item.RecommenderJob。我们通过研读RecommenderJob的代码来了解mahoutitembased协同过滤在hadoop上的实现方式。

2014-11-11 18:22:40 1300

原创 Mahout ALS Recommendations

mahout ALS推荐系统不同于mahout基于用户或者基于wupin

2014-11-07 15:29:38 1903

原创 scikit-learn使用joblib持久化模型过程中的问题详解

在机器学习过程中,一般用来训练m

2014-10-24 17:19:13 20005 6

原创 scikit-learn使用OneHotEncoder处理Nominal属性的机器学习流程(Random Forest算法为例)

scikit-learn机器学习流程(处理类别属性)

2014-10-24 15:33:04 14571 1

原创 机器学习工具Weka 使用已知进行实时预测

Weka预测一般使用classifyInstance,或者

2014-10-17 14:10:16 5508 3

原创 实现mahout0.9 bayes 预测功能(mahout只有trainnb和testnb)

mahout0.9 对贝叶斯模型只提供了训练和测试函数,仅能够得到模型,没有实现模型预测功能,通过对mahout源码的阶段,自己编写了mahout bayes模型的预测功能。mahout0.9贝叶斯的使用方式见http://blog.csdn.net/mach_learn/article/details/39667713mahout0.9将训练集合测试集同时进行序列化和向量

2014-10-11 09:08:06 2734 3

原创 mahout Newsgroups 贝叶斯分类实例

1、首先下载newsgroups数据集,网址为http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz

2014-09-29 11:39:53 1446

原创 机器学习算法优缺点及其应用领域

决策树一、  决策树优点1、决策树易于理解和解释,可以可视化分析,容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时,运行速度比较快。4、决策树可以很好的扩展到大型数据库中,同时它的大小独立于数据库大小。二、决策树缺点1、对缺失数据处理比较困难。2、容易出现过拟合问题。3、忽略数据集中属性的相互关联。4、ID3算法计算信息增益时结果偏向数值

2014-09-23 18:04:53 15773

原创 eclipse下mahout0.9开发实战(不使用hadoop eclipse plugins)

1、首先配置eclipse

2014-09-22 17:33:59 1536

原创 hadoop streaming 编程参数设置

运行hadoophadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar -mapper /home/wang/mapper.py -reducer /home/wang/reducer.py -input /home/xuhl/word  -output /home/xuhl/output3

2014-09-18 11:06:13 1858

ansj_seg-2.0.8.jar

本jar包是对ansj_seg-master文件中org.ansj.domain中的属性类进行了序列化,以便使属性对象可以在spark中传输。

2015-05-14

数据挖掘实用机器学习工具与技术(英文第三版)

此书是开源库weka作者所写,书中讲述了各种机器学习方法理论与实践,同时本书后半部分介绍了weka图形化工具实用,是从事数据挖掘和机器学习工作者的必备数据。

2014-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除