大数据
King-Long
天赋决定上限 努力决定下限;
格局决定结局 态度决定高度;
展开
-
Hadoop安装教程 单机和伪分布式 Centos6.8 Hadoop2.8.0
总述大数据的核心一是大数据文件存储,二是大数据运算MapReduce。大数据学习的基础是Linux基础命令,VI文本编辑器使用,关系型数据库基础知识,此外,还需要掌握Java基础知识,尤其是泛型等;本文将带领大家学习当前最新版本大数据Hadoop2.8.0的单机安装和伪分布式安装及验证,希望对想学大数据的人有所帮助。前提条件:安装好Centos Linux,笔者使用的是阿里原创 2017-06-19 22:32:39 · 596 阅读 · 0 评论 -
大数据推荐系统架构
推荐系统介绍当下,个性化推荐成了互联网产品的标配。但是,人们对推荐该如何来做,也就是推荐技术本身,还不甚了解。为此,好学的你肯定在收藏着朋友圈里流传的相关文章,转发着微博上的相关讨论话题,甚至还会不断奔走在各种大小行业会议之间,听着大厂职工们讲那些干货。我知道,这样碎片化的吸收,增加了知识的同时,也增加了焦虑。因为技术的不平等广泛存在于业界内,推荐系统也不例外。推荐系统从搜索引擎借鉴了不少技术...转载 2018-11-20 16:02:38 · 2048 阅读 · 0 评论 -
大数据晋级之路(5)Hadoop,Spark,Storm综合比较
大数据框架:Spark vs Hadoop vs Storm目录Hadoop Spark Storm 大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生。知识预热「专治不明觉厉」之“大数据”; 大数据生态圈及其技术栈;关于大数据的四大特征(4V)海量的数据规模(Volume):Quantifiable(可量化) 高速的数据流转...转载 2018-11-21 14:38:49 · 533 阅读 · 0 评论 -
修改HBase或者Spark默认的8080端口
我们知道8080端口是很多web应用的默认端口,如果一台机器上两个服务都用8080就会引起冲突,同时8080也容易被黑客攻击的端口。因此我们希望可以修改hbase或者spark的默认web ui访问的8080端口。修改HBase Web UI默认的8080端口修改HBASE_HOME下的conf目录之下的hbase-site.xml文件添加hbase.rest.port属性标签,然后重启...原创 2018-11-21 15:10:45 · 3688 阅读 · 0 评论 -
大数据晋级之路(7)Storm安装及使用
一、Apache Storm简介Apache Storm简介Storm是一个分布式的,可靠的,容错的数据流处理系统。Storm集群的输入流由一个被称作spout的组件管理,spout把数据传递给bolt, bolt要么把数据保存到某种存储器,要么把数据传递给其它的bolt。一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。Storm组件在Storm集群中...原创 2018-11-21 17:10:14 · 461 阅读 · 0 评论 -
今日头条推荐算法原理全文详解
本次分享将主要介绍今日头条推荐系统概览以及内容分析、用户标签、评估分析,内容安全等原理。一、系统概览推荐系统,如果用形式化的方式去描述实际上是拟合一个用户对内容满意度的函数,这个函数需要输入三个维度的变量。第一个维度是内容。头条现在已经是一个综合内容平台,图文、视频、UGC小视频、问答、微头条,每种内容有很多自己的特征,需要考虑怎样提取不同内容类型的特征做好推荐。第二个维度是用...转载 2018-11-23 20:57:42 · 1580 阅读 · 0 评论 -
典型推荐算法总结
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内容的推荐:这一类一般...转载 2018-11-23 21:05:42 · 44121 阅读 · 1 评论 -
大数据晋级之路(8)Scala,Spark分布式安装
环境准备 三台Centos或虚拟机环境 Hadoop全分布式已安装主要使用HDFS环境。Hadoop完全分布式安装 Scala安装Scala安装Scala下载进入到目标目录/hadoop,下载scala rpm安装包并安装cd /hadoop/wget https://downloads.lightbend.com/scala/2.12.7/scala-2.1...原创 2018-11-22 14:53:10 · 592 阅读 · 0 评论 -
Zookeeper查看器ZooInspector
下载地址下载ZooInspectorhttps://download.csdn.net/download/u011095110/10790185解压缩使用方法已安装JRE/JDK必须已经安装java运行环境可以运行jar文件进入命令行模式进入build/zookeeper-dev-ZooInspector.jar所在的目录java jar zookeeper-dev-ZooI...原创 2018-11-17 10:28:09 · 1563 阅读 · 0 评论 -
Elasticsearch-基础介绍及索引原理分析
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作,花了些时间学习Elasticsearch的基础理论知识,整理了一下,希望能对Elasticsearch感兴趣/想了解的同学有所帮助。 同时也希望有发现内容不正确或者有疑问的地方,望指明,一起探讨,学习,进步。介绍Elasticsearch 是一个分布式可扩展的实时搜索和分析引擎,一个建...转载 2018-12-17 16:54:43 · 356 阅读 · 0 评论 -
Zookeeper集群启动错误
错误提示ERROR [main:QuorumPeerMain@88] - Invalid config, exiting abnormally[root@slave2 bin]# ./zkServer.sh statusZooKeeper JMX enabled by defaultUsing config: /hadoop/zookeeper-3.4.13/bin/../conf/zo...原创 2018-11-14 19:08:47 · 2499 阅读 · 0 评论 -
大数据晋级之路(4)Hadoop生态系统体系架构及基本概念
基本概念机架:HDFS集群,由分布在多个机架上的大量DataNode组成,不同机架之间节点通过交换机通信,HDFS通过机架感知策略,使NameNode能够确定每个DataNode所属的机架ID,使用副本存放策略,来改进数据的可靠性、可用性和网络带宽的利用率。数据块(block):HDFS最基本的存储单元,默认为64M,用户可以自行设置大小。元数据:指HDFS文件系统中,文件和目录的属性信息。...原创 2018-11-08 18:34:25 · 720 阅读 · 0 评论 -
Eclipse搭建Scala入门经典程序Helloworld
1.安装Scala网址:http://www.scala-lang.org/download/2.检查scala是否安装成功scala -version3.安装带scala插件的eclipsehttp://scala-ide.org/Version 4.6.1注意此版本需要JDK1.84.启动下载的eclips原创 2017-06-12 00:00:00 · 3851 阅读 · 0 评论 -
系统架构设计模块拆分维度和原则
在我们从零开始做一个新系统的时候,会首先进行系统功能模块架构设计,那么是直接做一个大而全的垂直的MVC系统,使用一个war包进行发布管理,还是需要按一些规则进行模块拆分,设计成SOA或者微服务系统比较好呢?这个笔者认为需要依据项目具有什么样的人力物力条件以及项目需要支撑多少用户量和交易量为基础。一个好的系统设计应该能够满足解决当前的需求和问题,把控实现和进度风险,预测和规划未来,避免过度设计,在上原创 2017-07-07 19:24:14 · 7733 阅读 · 0 评论 -
tigase7.1.0 服务器在centos上搭建spark测试
1.tigase-server-7.1.0下载去tigase官网网址https://projects.tigase.org/projects/tigase-server/files下载tigase-server-7.1.0-b4379-dist-max.tar.gz;2.解压tar.gz文件tar -zxvf tigase-server-7.1.0-b4379-dist-max原创 2017-08-08 23:16:42 · 2992 阅读 · 1 评论 -
目前介绍区块链最好的教学视频
介绍比特币最清楚的视频:介绍区块链最清楚的视频什么是区块链?从字面上看:区块链是由一个个记录着各种信息的小区块链接起来组成的一个链条,类似于我们将一块块砖头叠起来,而且叠起来后是没办法拆掉的,每个砖头上面还写着各种信息,包括:谁叠的,什么时候叠的,砖头用了什么材质等等,这些信息你也没办法修改。从计算机上看:区块链是一种比较特殊的分布式数据库。分布式数据库就是将数据信息单独放在每台计算机,且存储的信...原创 2018-06-13 09:39:14 · 16676 阅读 · 1 评论 -
linux cat tail more less head文件输出操作命令解析对比
一、cat 显示文件连接文件内容的工具 cat 作用 cat(“concatenate”的缩写)命令用于连接并显示指定的一个和多个文件的有关信息,是一个文本文件(查看)和(连接)工具,通常与more搭配使用,与more不同的是cat可以合并文件。查看一个文件的内容,用cat比较简单,就是cat后面直接接文件名。 1、cat 语法结构: cat [选项] [文件]... 选项 -A...转载 2018-10-10 14:25:43 · 509 阅读 · 0 评论 -
iptables 命令解析
iptables概述Iptables 是用来设置、维护和检查Linux内核的IP包过滤规则的。可以定义不同的表,每个表都包含几个内部的链,也能包含用户定义的链。每个链都是一个规则列表,对对应的包进行匹配:每条规则指定应当如何处理与之相匹配的包。这被称作'target'(目标),也可以跳向同一个表内的用户定义的链。常用命令列表:命令 -A, --append范例 iptables -...原创 2018-10-29 15:46:37 · 1811 阅读 · 0 评论 -
大数据晋级之路(1)Centos7上搭建全分布式Hadoop集群
本文介绍搭建一个Namenode两个DataNode的Hadoop全分布式集群的全部步骤及方法。具体环境如下:环境准备3个Centos7虚拟机或者3个在一个局域网内的实际Centos7机器,机器上已安装JDK1.8,至于不会安装Centos7或者JDK1.8的同学可以自行网上百度教程,不为此文重点;关闭禁用防火墙,主要是方便hadoop集群内部相互之间可以顺利访问,方便于web端通过...原创 2018-11-06 18:04:10 · 1877 阅读 · 0 评论 -
大数据晋级之路(2)修改Hadoop集群日志目录,数据存放目录
Hadoop有时会有unhealthy Node不健康的非Active节点存产生,具体错误内容如下。错误内容-== log-dirs usable space is below configured utilization percentage/no more usable space [ /hadoop/hadoop-2.9.0/logs/userlogs : used space abov...原创 2018-11-08 14:57:34 · 3442 阅读 · 0 评论 -
大数据晋级之路(3)Hadoop环境MapReduce程序验证及hdfs常用命令
MapReduce验证本地创建一个test.txt文件vim test.txt输入一些英文句子如下:Beijing is the capital of ChinaI love BeijingI love China上传test.txt到hdfs系统的 ouput目录hdfs dfs -mkdir /userhdfs dfs -mkdir /user/inputhdf...原创 2018-11-08 17:01:32 · 984 阅读 · 0 评论 -
Redis学习(1):阿里云Redis开发规范
一、键值设计1.key名设计(1)【建议】: 可读性和可管理性以业务名(或数据库名)为前缀(防止key冲突),用冒号分隔,比如业务名:表名:idugc:video:1(2)【建议】: 简洁性保证语义的前提下,控制key的长度,当key较多时,内存占用也不容忽视,例如:user:{uid}:friends:messages:{mid}简化为u:{uid}原创 2019-01-02 18:57:03 · 1123 阅读 · 2 评论