2018年04月_SunnyRivers

12月 09月 08月 07月 05月 04月 03月 01月

原创 HBase完全分布式搭建

节点分布情况（这里把HMaster和NameNode搭建在一个节点，但是实际开发中，别这样做）前提条件（每个节点）（1）Java环境变量（2）时间同步（3）主从免秘钥（4）启动hadoop 1. 配置hbase-site.xml<configuration> <property> ...

2018-04-30 17:10:09 3271

原创 HBase伪分布式搭建

伪分布式一般都是用在测试环境中使用前提：Java环境配置HBase伪分布式搭建步骤：1. 上传并解压HBase的jar包，并把解压后的文件移动到/opt/software目录 2. 配置环境变量配置完记得刷新 . /etc/profile3. 二次JAVA_HOME配置 4. 配置hbase-site.xml<property><name>hbase.rootdir&l...

2018-04-30 14:12:59 347

学习大数据，如果只是零零散散地学习各个模块，就会深陷其中，很难深入了解hadoop架构中各个集群的作用。那么在实际开发中，究竟是怎样的一个流程呢？先看下面一张流程图：接下来就用一些大白话，来讲解每个模块的实际应用。大数据工程师应该从哪里收集用户的访问数据呢？一般可以从两个地方可以取，一个是客户端，一个是服务端。如果从服务器取数据，比如服务器每天在晚上8点到9点之间用户访问量非常多，而如果我们也从服...

2018-04-30 09:28:42 2699

原创 Hive多用户模式搭建

多用户模式也称远程服务模式，用户非java客户端访问元数据库，在服务端启动MetaStoreServer，客户端利用Thrift协议通过MetaStoreServer访问元数据库。使用hive多用户模式前提：（1）启动hadoop集群（2）启动mysql服务节点规划：hadoop01作为mysql服务，用来存放元数据信息hadoop03作为hive服务端hadoop04作为hive客户端搭建步骤：...

2018-04-29 16:42:00 1580

原创 Hive单用户模式搭建

单用户模式是通过网络连接到一个数据库中，是最经常使用到的模式。使用hive的前提：（1）启动hadoop集群（2）启动mysql服务节点规划：hadoop01为mysql存放元数据hadoop02搭建hive单用户模式搭建步骤：1.上传好tar包，后解压：tar -zxvf apache-hive-1.2.1-bin.tar.gz...

2018-04-29 16:33:44 856

原创 Linux系统下安装Mysql数据库

大概就下面几个步骤：1.挂载磁盘mount /dev/cdrom /mnt说明已经挂载了2.安装mysqlyum install mysql-server -y3.启动mysql服务service mysqld start4.验证是否安装成功[root@node01 ~]# mysqlWelcome to the MySQL monito...

2018-04-29 16:23:16 289

原创大数据面试都问些什么？

其实不管是哪家公司面试，都是根据你的简历来对你进行提问，所以自己简历上面写的知识点都要全部对答如流。还有慎用精通这样的字眼，工作五年以上的人，也不敢说自己对哪一方面能够达到精通的地步。下面是网上找的一些面试经历，可以看得出来问的都是大数据的基本知识点（可查阅这个大纲），而且现在大数据的面试官也不见得都是大牛，保持好心态，把自己真正懂的知识很流畅的表达出来即可。公司A：1.讲讲你做的过的项目。项目...

2018-04-22 19:48:40 6217

原创 eclipse如何开发python

有一些eclipse的忠实粉丝，怎么都不情愿使用pycharm......那就继续使用eclipse吧（无语...）操作步骤：1.下载python需要的插件点击下载2.解压完后生成这样两个文件夹3.分别把两个文件夹里的文件拷贝到eclipse对应的目录中4.重启eclipse后，就可以开心的new project了可是....工程名都没办法输入5.这是因...

2018-04-16 21:25:22 898

原创 Windows系统中搭建Python编译环境

Windows系统并非都默认安装了Python，因此你可能需要下载并安装它，再下载并安装一个文本编辑器（用之前的PyCham：点击打开链接）。1. 安装Python首先，检查你的系统是否安装了Python。为此，在“开始”菜单中输入 command 并按回车以打开一个命令窗口；你也可按住Shift键并右击桌面，再选择“在此处打开命令窗口”。在终端窗口中输入python并按回车；如果出现了Pytho...

2018-04-16 10:32:24 1021

原创怎么学习新技术

最新有些偷懒行为，导致很长一段时间，技术没有任何长进，心里慌乱无比，准备看一些新技术，但是又不知道怎么去学习，硬着头皮去看，发现不但效率低下，而且容易打击自信心。于是静下心来总结了一下，究竟该怎么学习新技术，才能更加有效率。在企业管理中经常会使用5W+1H的原则，我感觉在IT行业同样适用。What：这个技术究竟是什么Why：为什么会产生这个技术Who：这个技术有哪些程序员使用W...

2018-04-15 20:46:41 306

原创安装MySql报错（This application requires .NET Framework x.x.x）

这个主要原因是下载了最新版本的MySql，而系统中没有对应的.NET Framework造成的，所以会报如下错误：解决方法：在下面网站下载对应的.NET Framework:https://www.microsoft.com/en-us/download（刚开始运行有点慢，不要着急）执行完毕后，在安装MySQL就不会报错了。...

2018-04-14 12:37:47 2438 2

原创卸载MySql详细步骤

这里以Windows 7 为例，其他系统都差不多。1.在Windows服务中停止MySQL的服务。2.打开“控制面板”，单击“程序和功能”，找到“MySQL”，右键单击从下拉菜单中选择卸载（或者使用其他软件如360来卸载）。3.卸载完成后，删除安装目录下的MySQL文件夹及程序数据文件夹，如C:\Program Files（x86）\MySQL和C:\Program Data\MySQL。（上面的...

2018-04-14 11:35:03 636

原创冒泡排序详细分析

它重复地走访过要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。走访数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越大的元素会经由交换慢慢“浮”到数列的顶端，故名“冒泡排序”。（上面是百度出来的，我自己做一个简单的解释：相邻元素两两比较，大的往后放，第一次完毕，最大值出现在了最大索引处）算法原理冒泡排序算法的...

2018-04-04 17:08:23 581

原创 Spark共享变量(广播变量、累加器)

Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。共享变量出现的原因：通常在向 Spark 传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行的每个任务都会得到这些变量的一份新的副本，更新这些副本的值也不会影响驱动...

2018-04-01 19:02:46 25597 17

转载大数据就业前景

从Amazon GO无人超市的提出，到阿里巴巴无人超市“淘宝会员店”7月9日正式营业，无人零售概念已经进入人们的视野当中。但是呢，这些概念的实现，都与人工智能脱不了关系。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。人工智能之所以能取得突飞猛进的进展的背后，不能不说这些年来大数据长足发展的结果。人工智能和大数据有什么关系...

2018-04-01 11:17:34 16477