mach_learn
码龄10年
关注
提问 私信
  • 博客:232,064
    232,064
    总访问量
  • 21
    原创
  • 1,655,573
    排名
  • 34
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:香港
  • 加入CSDN时间: 2014-09-18
博客简介:

mach_learn的专栏

查看详细资料
个人成就
  • 获得38次点赞
  • 内容获得40次评论
  • 获得86次收藏
创作历程
  • 11篇
    2015年
  • 13篇
    2014年
成就勋章
TA的专栏
  • mahout bayes
    2篇
  • hadoop streaming
    2篇
  • eclipse
  • mahout
    5篇
  • 机器学习
    8篇
  • Weka
    1篇
  • scikit
    2篇
  • 开发
    1篇
  • python
    1篇
  • spark
    7篇
  • hadoop yarn
    1篇
  • 推荐算法
    2篇
  • 文本分词
    1篇
  • hbase
    1篇
  • 翻译
    3篇
  • spark1-3-0
    3篇
  • spark-sql
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Spark 基于item和user 的协同过滤实现

mahout已经提供了 item-based cf 算法,但是要想在 mahout 算法上修改item-based cf 相对来说比较繁琐,比如改进相似度或者改进推荐结果计算公式,更加令人头疼的是mahout 修改比较难调试,相比来说 spark 实现起来更加简单方便,同时 spark shell 在调试阶段特别方便。本文使用 spark 编写了 item-based和 user-based 两种协同过虑算法。
原创
发布博客 2015.07.15 ·
12241 阅读 ·
4 点赞 ·
4 评论 ·
14 收藏

Spark GraphX

GraphX是spark的一个新组件用于图和并行图计算。在一个高水平,GraphX通过引进一个新的图抽象扩展了spark RDD:带有顶点和边属性的有向多重图。为了支持图计算,GraphX 提供了很多基本的操作(像 subgraph, joinVertices, and aggregateMessages)和pregel的一个优化变种。除此之外,GraphX 包含了一个正在增长的图算法和图构造的集合来简化图的分析任务
翻译
发布博客 2015.06.15 ·
4902 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

spark streaming

Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据,也可以通过由 高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后,处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上,你可以将处理后的数据应用到Spark的
翻译
发布博客 2015.06.12 ·
3420 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

spark 基础和spark sql翻译

Spark1.3.0 基础文档和spark1.3.0 sql 部分翻译
翻译
发布博客 2015.06.08 ·
2023 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mahout 实战

本文整理了mahout比较常用的算法,部分章节理论知识进行了引用,小节后有引用网址,对mahout中的多种算法,使用中文实例进行讲解,像k-means中文聚类,朴素贝叶斯中文分类等,最后讲解了推荐算法应用的一般流程。
原创
发布博客 2015.06.08 ·
5212 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

Spark 批量写数据入HBase

介绍  工作中常常会遇到这种情形,需要将hdfs中的大批量数据导入HBase。本文使用Spark+HBase的方式将RDD中的数据导入HBase中。没有使用官网提供的newAPIHadoopRDD接口的方式。使用本文的方式将数据导入HBase, 7000W条数据,花费时间大概20分钟左右,本文Spark可用核数量为20。
原创
发布博客 2015.06.02 ·
3721 阅读 ·
1 点赞 ·
4 评论 ·
3 收藏

ansj_seg-2.0.8.jar

发布资源 2015.05.14 ·
jar

spark + ansj 对大数据量中文进行分词

目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。
原创
发布博客 2015.05.14 ·
8525 阅读 ·
1 点赞 ·
11 评论 ·
6 收藏

推荐算法注意事项总结

本文总结了多种推荐场景中的注意事项,或者推荐中比较关键的因素,不涉及算法描述,仅仅说明关注点,仅供参考。推荐算法有很多种,从算法的角度来说,我认为主要由以下几种:协同过滤系列(基于item和user),机器学习分类系列(喜欢和不喜欢二分类,或者回归中的分值代表喜欢程度),矩阵分解系列(mahout ALS算法,netflix举行推荐大赛获奖算法),关联规则(电商常用)。本文将从以上几种系列进行总结。
原创
发布博客 2015.04.03 ·
2319 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

spark1.3.0 on yarn 构建(hive0.12.0)

1、编译spark源文件下载spark时,可以选择对应自己hadoop版本的pre-built版下载最新spark1.3.0。如果没有自己hadoop版本对应的预构建版本,或者spark对应的hive版本不一致等都需要重新构建构建方法详情见spark官网网址为https://spark.apache.org/docs/latest/building-spark.html本文是使用m
原创
发布博客 2015.04.03 ·
915 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark 1.3.0 将dataframe数据写入Hive分区表

从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API。DataFrame将数据写入hive中时,默认的是hive默认数据库,insertInto没有指定数据库的参数,本文使用了下面方式将数据写入hive表或者hive表的分区中,仅供参考。
原创
发布博客 2015.04.03 ·
7874 阅读 ·
0 点赞 ·
1 评论 ·
4 收藏

spark sql on hive安装问题解析

安装spark时,默认的spark assembly 不包含hive支持。spark官网上说明“Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, it is not included in the default Spark assembly.” ,要想spark sql在hive上运行,需要编辑与自己使
原创
发布博客 2015.01.06 ·
6566 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark on yarn运行产生缺jar包错误及解决办法

spark在很多时候由于配置的原因造成缺少jar包的情况,本文介绍了两种缺少jar包情况,并介绍了如何使用spark-submit的--jars和--driver-class-path参数将jar包动态调用。
原创
发布博客 2014.12.09 ·
9868 阅读 ·
0 点赞 ·
1 评论 ·
3 收藏

python 过滤中文、英文标点特殊符号

在工作中经常遇到很多特殊的标点符号,像中文标点符号,英文标点符号。英文的标点符号比较容易过滤,而过滤中文的标点符号较麻烦。下面是从邮件中过滤特殊符号的方式供参考。
原创
发布博客 2014.12.05 ·
92311 阅读 ·
12 点赞 ·
5 评论 ·
23 收藏

深入理解mahout基于hadoop的协同过滤流程

最近做mahout itembased collaborative filtering项目,今天把mahout 协同过滤的流程进行了一下梳理,以便能够更好了解mahout itembased协同过滤设计方式,以及能够对mahout itembased协同过滤源码进行修改。分享一下,希望对大家有所帮助。
原创
发布博客 2014.11.13 ·
2389 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Mahout基于hadoop实现itembased协同过滤流程解析

首先,我们分析mahout itembased协同过滤,必须先找到执行协同过滤的触发类org.apache.mahout.cf.taste.hadoop.item.RecommenderJob。我们通过研读RecommenderJob的代码来了解mahoutitembased协同过滤在hadoop上的实现方式。
原创
发布博客 2014.11.11 ·
1319 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Mahout ALS Recommendations

mahout ALS推荐系统不同于mahout基于用户或者基于wupin
原创
发布博客 2014.11.07 ·
1927 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数据挖掘实用机器学习工具与技术(英文第三版)

发布资源 2014.11.05 ·
pdf

scikit-learn使用joblib持久化模型过程中的问题详解

在机器学习过程中,一般用来训练m
原创
发布博客 2014.10.24 ·
20072 阅读 ·
3 点赞 ·
6 评论 ·
8 收藏

scikit-learn使用OneHotEncoder处理Nominal属性的机器学习流程(Random Forest算法为例)

scikit-learn机器学习流程(处理类别属性)
原创
发布博客 2014.10.24 ·
14593 阅读 ·
5 点赞 ·
1 评论 ·
8 收藏
加载更多