![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 73
nethub2
这个作者很懒,什么都没留下…
展开
-
Hadoop的dfs -ls 报错:ipc.Client: Retrying connect to server
参考网站:http://blog.csdn.net/zhangheng1225/article/details/8246785 有项目需要用到HBase,配置Hadoop集群的情况如下: OS : Ubuntu 11.04 Hadoop 2.02 三台虚拟机IP分配如下: 192.168.128.131 master 兼slave 192.168.128.132 slav...原创 2017-11-02 21:31:23 · 362 阅读 · 0 评论 -
python 结巴分词(jieba)学习
目录(?)[-] jieba 特点 在线演示 安装说明 算法 主要功能 1 分词 2 添加自定义词典 载入词典 调整词典 3 关键词提取 基于 TF-IDF 算法的关键词抽取 基于 TextRank 算法的关键词抽取 基本思想 使用示例 4 词性标注 5 并行分词 6 Tokenize返回词语在原文的起止位置 7 ChineseAnal...原创 2017-11-11 18:08:06 · 172 阅读 · 0 评论 -
/etc/profile和/root/.bash_profile有什么区别
/etc/profile,优先级最高,是全局的,是私有的,用于整个系统所有用户, ~/.bashrc和 ~/.bash_profile, ~/.profile 用于各个用户,这里的"~"符号就是各当前用户的$HOME ~/.bash_profile 和 ~/.profile 只在登陆时读取一次。 ~/.bashrc 每次都读取 ~/.bash_profile 和 ~/.profi...原创 2017-11-19 21:37:40 · 921 阅读 · 0 评论 -
Hadoop分布式集群的搭建
https://bigdata.163yun.com/product/article/35 本篇将向大家介绍下Hadoop分布式集群的搭建。内容浅显,但能够为新手们提供一个参考,让像我一样的小白们对Hadoop的环境能够有一定的了解。 环境: 系统环境:CentOS7.3.1611 64位 Java版本:OpenJDK 1.8.0 ...原创 2018-05-09 17:22:27 · 223 阅读 · 0 评论 -
推荐系统架构详解
背景介绍: 对于推荐系统,大家应该不陌生。可以说现在已经随处可以看到它的身影。比如你浏览网页时,如在京东上购物,对应页面会根据你的浏览内容给你推荐诸多类似功能的商品。页面上的看了又看以及猜你喜欢,这2个功能背后都是大数据的推荐系统做支持。以及你看今日头条时,你会发现,系统不断动态展现你喜欢的内容,这也是根据大数据而做的推荐内容。尤其现在倡导千人千面的app应用中,每个人浏览的内容都是根据个人...原创 2018-05-10 14:33:05 · 633 阅读 · 0 评论 -
Spark 以及 spark streaming 核心原理及实践 - (1)
导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。 本文依次从: spark生态,原理,基本概念, spark streaming原理及实践, 还有spark调优 以及环...原创 2018-08-19 15:44:55 · 392 阅读 · 0 评论 -
Spark 以及 spark streaming 核心原理及实践 - (2)
Spark Streaming运行原理 spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,spark streaming是将持续不断输入的数据流转换成多个batch分片,使用一批spark应用实例进行处理。 从原理上看,把传统的spark批处理程序变成streaming程序,spark需要构建什么? 需要构建4个东西: 一个静态的 RDD DAG...原创 2018-08-19 15:45:53 · 1104 阅读 · 0 评论