大数据
随风而醒
我是个疯子,虽然我在服新药,但仍旧有幻觉
展开
-
nginx与tomcat进行服务器方向代理-负载均衡
反向代理图: 1、转发 即通过nginx将请求转发给tomcat服务器 * 配置nginx*(使用的是阿里的tengine)服务器为192.168.116.3:80(系统默认为80端口,所以直接访问192.168.116.2即可) * 配置tomcat服务器为192.168.116.3:8080 注意:每次重启虚拟机都需要重新关闭虚拟机防火墙,否则无...原创 2018-03-17 20:00:57 · 300 阅读 · 0 评论 -
推荐系统-计算用户关联度fof(hadoop计算)
场景:无论是qq,还是微博、头条等带有社交属性的平台,为了黏住用户,往往会给用户推荐好友,这种好友一般都是更具自己的兴趣或者自己好友的好友得来,比如qq中“可能认识的人”。fof关系:对于任何一个用户A,用户A的好友集合为B,B中的任何两个用户之间的关系如果不是好友关系,则就为fof关系推荐系数需要排序,排序的依据就是整个用户组的fof关系的多少,同样的fof关系越多,表明两个用户...原创 2018-05-04 11:43:04 · 1444 阅读 · 0 评论 -
Hadoop的HA高可靠性集群搭建(Hadoop+High availability+Zookeeper)
一.概述 部分转载自:http://eksliang.iteye.com/blog/22269861.1 hadoop1.0的单点问题 Hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的...原创 2018-04-26 22:40:45 · 712 阅读 · 0 评论 -
hadoop集群简化安装-CDH的安装和使用
hadoop大数据开发环境,由于牵扯到太多的部件,而且这些部件之间联系复杂,独立的安装往往错误百出,即浪费时间又浪费精力,还不讨好,而且这些往往还不是真正开发做的事(可能)。另外对于大数据而言,机器往往动不动就上万台,像这样一台一台的安装,只能把猴子给累死。所以,为了便于继承搭建,hadoop出了一个实用版的CDH用来管理所有的部件,相当于集成。这样就可以慧姐在控制台搭建管理集群,大大解放生...原创 2018-05-17 22:46:42 · 1887 阅读 · 0 评论 -
Hadoop-HBase集群搭建
随着数据的增大,传统的关系型数据库对于上千万或者上亿的数据处理,效率会迅速下降。同样是为了解决大数据处理问题,hbase也是基于分布式,这种依靠列存储的方式,使得数据处于非结构化或者半结构化,便于数据的大量操作。hadoop生态架构 数据提取工具:flume:收集日志,从日志中提取数据sqoop:从结构化存储器中提取数据数据处理工具:mahout:数据挖掘/机器学习开...原创 2018-05-11 18:45:02 · 963 阅读 · 0 评论 -
hadoop集群-单词计数wordcount
开发环境 系统:CentOS release 6.5 jdk:jdk1.7.0_45 hadoop:2.5.2hadoop集群搭建 参照:https://blog.csdn.net/soundslow/article/details/80101146eclipse插件配置 由于需要使用跨平台文件传递,多以需要一个hadoop插件hadoop-eclipse-plugin-2.5.2...原创 2018-04-27 18:08:52 · 687 阅读 · 0 评论 -
Hadoop的HA集群HDFS搭建-错误记录
Live Nodes显示为0 * 第一步:查看datanode日志tail -100 /home/hadoop-2.5.1/logs/hadoop-root-datanode-node2.log * 异常问题: * 原因:重复格式化。在第一次格式化dfs后,启动并使用了hadoop,后来又重新执行了格式化命令(hdfs namenode -format),这时...原创 2018-04-27 18:09:18 · 409 阅读 · 0 评论 -
hadoop-hbase几个错误记录
集群这东西,就是各种文件配置,太过于杂乱导致,如果你不是特别细心,总是会错误百出,以致于精神萎靡而无法向前。但是,有时候,即便你细心得像个暖男,最后还是会出现问题,很多时候,这并不是你的错,而是机器的错,但是,如果你不能够在短时间内找到“问题”的真正原因,背锅的还是你自己几个浪费时间的问题 * 1还是防火墙问题:把防火墙全部给永久封停# 关闭iptables/etc/ini...原创 2018-05-12 16:45:32 · 1184 阅读 · 0 评论 -
hadoop-hive初始化
围绕大数据、数据挖掘、人工智能有很多名词,这些名词都互相关联,不太懂的人可能只是把他们当做高级码农的一个分支,但是,其中的真正技术却并不是一半码农能够做的,或者这些领域可能就不是码农干的事,即便做这些的人可能是个java或者python开发者,但是编程只是他们的副业而已,他们的主业却是数据科学。但是,有一个问题,既然是副业,也就是说这些数据科学家并不是太会编程,然而,不会编程,数据处理时很艰...原创 2018-05-06 23:16:26 · 2733 阅读 · 0 评论 -
hadoop计算框架shuffle-计算每个月最高三个温度出现的时间
MapReduce主要由两部分组成,map和reduce,但是这两部分如何连接?比如对于单词计数,原始数据为java hadoop java,map的作用是对单条数据进行处理,划分格式便于处理计算,处理后为java 1 hadoop 1 java 1,而reduce是对map的类型进行统一计算,输出为java 2 hadoop 1。如果只是这样简单地逻辑,shuffle就不用了,shuffl...原创 2018-05-03 10:37:23 · 1395 阅读 · 0 评论 -
MapReduce开发环境搭建
MapReduce运行在linux系统上,但是对于开发而言,系统平台可能是windows平台,因为在看法测试时,需要让程序运行在Linux上的hadoop集群上。第一种方式是:建立windows和linux之间的连接,开发平台eclipse在windows上,调用hadoop的运行接口和文件存储接口。(windows上没有配置hadoop,因此无法直接在windows上调试,只能开发完,打包...原创 2018-05-03 10:36:28 · 1567 阅读 · 0 评论 -
hadoop-mapreduce基于物品的协同推荐算法ItemCF
推荐算法作为一种大数据分析最早的应用,如今已经得到的大量的普及,特别是新进崛起的头条,抖音,更或是早前的网易云音乐,其中的最吸引支出无不是人性化的推荐系统,实际上也正是这些使得BAT三巨头始终无法将其击倒。尽管如今的推荐系统算法已经变得“面目全非”,但是其中的主要精髓还是基于协同过滤算法,只是在其中进行了适当的优化或者改进,以适应不同的场景和数据。更加详尽的推荐算法请参照项亮的《推荐系统实践...原创 2018-05-09 12:06:20 · 2166 阅读 · 0 评论 -
分布式服务器中的session共享问题
为了使得分发后的多个tomcat服务器,可以对请求session进行共享,我们需要使用一个特殊的数据服务器。 一般有memcached和redis3。(redis没有这个功能)session共享原理 http协议是无状态的,即你连续访问某个网页100次和访问1次对服务器来说是没有区别对待的,因为它记不住你。那么,在一些场合,确实需要服务器记住当前用户怎么办?比如用户登录邮箱...原创 2018-03-18 13:15:05 · 599 阅读 · 0 评论 -
分布式服务器中的session共享问题
为了使得分发后的多个tomcat服务器,可以对请求session进行共享,我们需要使用一个特殊的数据服务器。 一般有memcached和redis3。(redis没有这个功能)session共享原理 * http协议是无状态的,即你连续访问某个网页100次和访问1次对服务器来说是没有区别对待的,因为它记不住你。那么,在一些场合,确实需要服务器记住当前用户怎么办?比如用户登录邮箱...原创 2018-03-19 16:11:07 · 263 阅读 · 0 评论 -
第六章-session一致性的会话保持功能:使用cookie来保存会话
分布式服务器是为了解决高并发而存在,但是却会出现session一致性的问题,之前的方案主要是通过缓存数据库来共享session,而这种方式的效率却并不高,因为存在一个中间过程问题。但是在某些情况下,由于服务器宕机的可能性很低,或者说并不需要高并发的情况下,并不需要通过多余的缓存数据服务器来共享session。比如,一个用户通过浏览器登录淘宝网,其实对于一个用户而言,一个浏览器的访问数量很少,...原创 2018-03-19 17:33:05 · 708 阅读 · 0 评论 -
使用LVS实现负载均衡
为了达到负载均衡,我们需要将上行和下行进行分离(请求和响应进行分离)。具体就是所有的请求都是通过nginx来转发到之后的tomcat服务器;但是,之后的响应数据由对应的tomcat直接发送给客户端,而不需要经过nginx前端服务器。实际上,网络通信中,请求数据总是比响应数据要少得多,请求数据一般只是一个表单的提交,很少涉及到图片或者视频等其他资源;但是服务器响应却存在大量的信息,包括页面渲染...原创 2018-03-21 11:05:28 · 329 阅读 · 0 评论 -
LVS结合keepalived实现负载均衡
LVS可以实现负载均衡,但是不能够进行健康检查,比如一个rs出现故障,LVS 仍然会把请求转发给故障的rs服务器,这样就会导致请求的无效性。keepalived 软件可以进行健康检查,而且能同时实现 LVS 的高可用性,解决 LVS 单点故障的问题。第一步-克隆主机直接进入虚拟机,删除临时网络配置,并配置网卡,修改后,init 6重启 xshell连接,主机为当前wind...原创 2018-03-21 14:26:19 · 307 阅读 · 0 评论 -
海量搜索服务架构搭建1-基于spring的搜索服务
相当于一个百度搜索系统几个名词解释Lucene简介1.什么是lucene? Lucene是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。2.lucene能做什么? 要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,...原创 2018-03-31 16:12:27 · 494 阅读 · 0 评论 -
海量搜索服务架构搭建2-SolrCloud集群搭建
平台:linux第一步,安装solr1.解压solr,路径solr-4.9.1\example\webapps的solr.war拷贝到tomcat的webapp下面启动2.将solr-4.9.1\example\lib\ext下面的jar包拷贝到solr在tomcat中解压的目录的WEB-INFO下面的lib里面3.修改WEB-INFO下面的web.xml里面修改solr/h...原创 2018-04-01 20:40:21 · 330 阅读 · 0 评论 -
hadoop学习记录1-基本原理
创始人:Doug cutting有两个有名的开源项目一个是搜索索引器Lucene,之后为了解决Lucene大规模数据问题,创建了Hadoop开源框架。其中Lucene是他妻子的名字,Hadoop是他儿子玩具大象的名字。Hadoop简介:两个重要的组成部分,存储和计算 分布式存储系统HDFS (Hadoop Distributed File System ) • 分布式存储系统 ...原创 2018-04-02 18:18:37 · 220 阅读 · 0 评论 -
hadoop学习记录2-Hadoop安装配置
安装前的环境:四台机器的时间一致;需要一台机器进行免密码登录,即可以访问任何一台机器,包括自己,而不需要输入密码。这样便于通过一台机器进行控制,而且避免每一次都需要输入密码。 时间一致: date查看时间ntpdate -u xx.xx.xx.xx同步xx.xx.xx.xx服务器的时间到本机,一般使用ntpdate -u ntp.api.bz。参看链接 设置免密码登录Setup pas...原创 2018-04-02 18:19:31 · 286 阅读 · 0 评论 -
Zookeeper-Zookeeper leader选举
转载自:https://blog.csdn.net/zhanghongjie0302/article/details/77145978原计划在介绍完ZK Client之后就着手ZK Server的介绍,但是发现ZK Server所包含的内容实在太多,并不是简简单单一篇Blog就能搞定的。于是决定从基础搞起比较好。那么ZK Server最基础的东西是什么呢?我想应该是Paxos了。所以本文会...转载 2018-05-22 09:48:40 · 885 阅读 · 0 评论