自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 scala中sortBy与sortWith区别

(1)Scala中sortBy是以方法的形式存在的,并且是作用在Array或List集合排序上,并且这个sortBy默认只能升序,除非实现隐式转换或调用reverse方法才能实现降序。 (2)sortWith可以通过制定规则进行升降序排序。 val mapvalues2: RDD[(Str...

2020-06-29 10:34:30 21 0

转载 关于python的元组类型(tuple)的特点

python 元组--元组到底可不可以被修改 2.元组--tuple ()/(1,) 2.1创建和访问一个元组 如果创建一个空元组,直接使用小括号即可; 如果要创建的元组中只有一个元素,要在它的后面加上一个逗号‘,’。 >>> temp = () >...

2019-08-29 16:02:43 291 0

原创 共享单车项目、mongodb集群

需求分析 摩拜单车的重点是物联网大数据 车投放在什么地方,要根据数据来进行支撑,根据历史数据(骑行记录) 通过共享单车的骑行数据可以分析出个性城市 成都休闲之都:骑行的地方多为娱乐场所 上海敬业之城:共享单车作为通勤的辅助手段 北京早起之城:早高峰的出现早于其他城市 深圳不夜之城:夜晚骑...

2019-02-16 21:06:21 174 0

原创 数据存储方式总结

关系型数据库: Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL 非关系型数据库: NoSql、Cloudant、MongoDb、redis、HBase   还有我们学过的: hdfs、hive数据仓库   两种数据库之间...

2019-01-10 15:33:12 123 0

原创 SparkStreaming讲解与使用

一、SparkStreaming概述 Spark内置对象: sparkconf: SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 SparkContext: **SparkContex...

2019-01-05 16:11:05 135 0

原创 java线程的交替执行与谦让执行

1.两个线程的交替执行 package myThread; public class alternateThread { Object o=new Object(); Boolean f=true; class Thread1 extends Thread{ ...

2019-01-02 16:55:38 224 0

原创 DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决

DataFrame registerTempTable(注册临时表)后Table Not Found问题的解决 将数据存成数据集的方式是实现数据各种操作非常有效的一种方式。也能够迅速实现数据的导入与导出。 Spark DataFrame提供了registerTempTable这样的接口,可以将...

2018-12-31 04:11:57 449 0

转载 centos6.8修改IP为静态static后开机IP地址还会变的解决办法

centos6.5修改IP为静态static后开机IP地址还会变的解决办法 2018年01月08日 13:16:22 smilecattobelucky 阅读数:1238  版权声明:本文为博主原创文章,转载请注明出处. https://blog.csdn.net/springyh/artic...

2018-12-30 19:14:17 391 0

原创 elasticSearch的安装与使用

__________________________________________________________________________ 上课流程:       学生知识点分享      上堂课知识点回顾(采取默写的形式)      上堂课作业(项目)讲授           2...

2018-12-27 20:45:44 95 0

转载 Hadoop元数据存储、加载、恢复

Hadoop元数据存储、加载、恢复 1. 元数据加载  为了保证交互速度,HDFS文件系统的metadata是被load到namenode机器的内存中的。 并会将内存中的这些数据保存到磁盘进行持久化存储,但对块的位置信息不进行持久化存储,在DataNode向namenode进行注册时动态加载。...

2018-12-22 23:40:24 128 0

原创 radis数据库的简单的使用

常用命令 就DB来说,Redis成绩已经很惊人了,且不说memcachedb和tokyocabinet之流,就说原版的memcached,速度似乎也只能达到这个级别。Redis根本是使用内存存储,持久化的关键是这三条指令:SAVE BGSAVE LASTSAVE … 常见可执行文件: redi...

2018-12-22 10:13:51 130 0

原创 redis的安装

      安装: 由于redis是c语言写的,所以需要先安装c的支持,然后编译安装 [root@hadoop01 ~]# yum -y install cpp binutils glibc glibc-kernheaders glibc-common glibc-devel gcc m...

2018-12-21 21:32:59 47 0

原创 关于hive 创建新表,两个表join 两个表中都有相同字段的处理

此时 select * from A left join B on A.paper_id=B.paper_id 会报错: FAILED: SemanticException [Error 10036]: Duplicate column name: paper_id 解决: ...

2018-12-19 17:08:11 2979 2

原创 关于hive的分段统计的解析例如求18-24、25-30年龄段的计数的统计

解决办法就是将比如是19、20、21、22、23岁的数据加一个分段表及,比如说将18-24岁的都标记为“18_24”,将25-30 岁的都标记为“25_30”,这样就很好解决问题了 加条件语句为 case when age>=0 and age<=18 then ...

2018-12-19 14:20:02 2627 0

原创 sqoop的使用

mysql数据导入hive(创建表同时导入指定数据库) bin/sqoop import \ --connect jdbc:mysql://had01:3306/studentexam \ --username root \ --password root \ --table category ...

2018-12-19 13:56:30 35 0

原创 azkabin实现每天向hive分区表中加载数据——每天自动生成一个分区

第一步:创建分区表 create database hive_autoload; create table hive_autoload.student2( uid string, gender string, fuid string ) partitioned by (dt string) ro...

2018-12-18 20:45:13 395 0

原创 azkabin的安装与调试

Git上下载源码: 地址:https://github.com/azkaban/azkaban   解压源码到/home: unzip /home/azkaban-master.zip -d /home/   编译源码:     安装: 在安装咯hadoop、hive、sqoo...

2018-12-17 16:12:35 106 0

原创 group by 与partition by 的效果展示,希望对大家有帮助

student.uid     student.xi      student.fuid 1       1       1 1       1       3 2       1       10 2       2       11 1       1       4 1       2   ...

2018-12-17 09:32:47 144 0

原创 微博粉丝互粉列表统计

微博粉丝互粉统计 mapper阶段 import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import jav...

2018-12-13 20:37:23 394 0

原创 电信客服分析实现思路

电信项目: 一、idea项目构建 1、安装jdk并配置环境变量   2、安装maven,解压离线仓库,并设置settings  conf目录下的setttings.xml文件复制到离线仓库的m2目录下,并修改mirror标签以及离线仓库路径。       设置idea工具的maven选...

2018-12-12 20:05:35 150 0

原创 hadoop——hive视频观看热度,Top N案例(youtube)

数据准备 user.txt 0.txt 字段以及字段名解析   user表 字段 备注 字段类型 uploader 上传者用户名 string videos 上传视频数 int friends 朋友数量 int   视频表: 字段 备注 详细描述 video id 视频唯一...

2018-12-11 18:02:22 711 0

原创 使用二分查找法,查找ip所在的范围对应的code(语言为java\scala\python) java语言来实现

使用二分法实现查找ip所在的范围,并返回对应的id start_ip end_ip code 0.0.0.0 1.0.0.255 1000000000 1.0.1.0 1.0.3.255 1156350100 1.0.4.0 1.0.7.255 1036000000 1.0.8.0 1.0...

2018-12-11 16:48:25 174 0

原创 关于hbase-site.xml中配置文件进行改动,删除某个属性后出现的错误hbase启动不了

操作分三步: 1.进入zkCli.sh------ls /-------rmr hbase 2.删除hbase.tmp.dir属性对应的的路径中的文件 3.删除hdfs上对应的hbase所有元数据 4.删除hbase logs中文件 5.重新启动集群 解决问题  ...

2018-11-29 15:59:29 314 0

原创 关于本人hbase整合sqoop和hive框架的遇到的那些坑

关于本人hbase整合sqoop和hive框架的遇到的那些坑   hbase: hbase-1.3.1-bin.tar.gz hive:apache-hive-1.2.2-bin.tar.gz 要实现的功能:实现创建hive表同时关联到hbase在logs日志查看出现异常信息 执行语句:...

2018-11-26 20:16:18 441 0

原创 SparkStreaming概述

一、SparkStreaming概述 Spark内置对象: sparkconf: SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 SparkContext: **SparkCont...

2018-11-19 13:52:51 71 0

转载 Hive数据分析实战演练

  Hive数据分析实战演练 文章来源:企鹅号 - 程序猿的修身养性 1、准备工作 Hive的底层是基于MapReduce分布式计算和HDFS分布式存储,因此,在使用Hive进行数据操作前,需要先启动Hadoop。如果事先已经搭建好了伪分布式环境的Hadoop,运行命令: start-al...

2018-11-19 11:06:43 80 0

原创 Hadoop选举以及副本策略

17.Hadoop选举以及副本策略 默认是采用投票数大于半数则胜出的逻辑。   选举流程简述   目前有5台服务器,每台服务器均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选择举过程如下:   服务器1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所...

2018-11-17 15:58:32 335 0

原创 mapReduce共同好友案例(hadoop)

4.mapReduce共同好友案例 思路: A: B,C B:A,D C:A,D D:B,C 第一步 B A -----B是A的朋友 C A A B D B A C D C B D C D   A: B,C ----A是BC的朋友 B:A,D C:A,D D:...

2018-11-17 11:15:32 162 0

原创 eclipse远程连接hadoop2-5.0运行程序报错org.apache.hadoop.io.nativeio.NativeIO$Windows

eclipse远程连接hadoop2-5.0运行程序报错nativeio: Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi...

2018-11-17 10:38:31 97 0

原创 Kafka+采集用户信息行为+flume整合(鼠标停留时间)

Kafka+采集用户信息行为+flume(鼠标停留时间) 一、Kafka概述 与消息系统类似,是消息中间件的一种。能够订阅和发布流式数据,能够以容错的方式存储流式数据,当数据产生时就能够处理 生产者:数据产生者   消费者:数据使用者   中间件:进行数据缓冲   采集用户信...

2018-11-15 23:17:49 281 0

原创 Flum、Yum、Telnet、光盘挂载装yum(FLUME日志采集)

Flum、Yum、Telnet、光盘挂载装yum   附加: Flum的使用   数据处理流程   数据源-----存储-----计算------结果展示   数据倒入场景:(数据采集webServer---DataServer过程) 一次性倒入 数据更新频次低(一天、一周)...

2018-11-14 23:20:55 65 0

原创 Hive----JDBC工具类的建立使用(包括HIVEsql工具类)---IDEA开发

  Hive-----JDBC---util package com.www.hive.util;import java.sql.*;import java.util.Date;import java.util.*;import java.util.List;public class ...

2018-11-13 23:23:31 536 0

原创 Spark JDBC连接本地数据库、连接linux数据库

1.连接本地数据库 package sparkSQL import java.sql.DriverManager import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, SparkContext...

2018-11-12 22:18:11 391 0

原创 软件完整开发过程,以及项目的部署(精简)

软件完整开发过程,以及项目的部署     开发的过程: 第一步进行市场调研,了解行业痛点(大概的方向以及解决什么样的问题)-----市场部   或者与客户方公司进行沟通   第二步就是做需求分析(做销售评估)-------市场部、销售部、项目经理   第三步概要设计(设计整...

2018-11-12 20:55:19 4219 0

原创 Spark英文单词分析案例

1、有如下文件testdata.txt() At a high level every Spark application consists of a driver program that runs the user’s main function and executes various ...

2018-11-09 21:30:09 90 0

原创 Scala中的groupBy与Spark中groupByKey、ReduceByKey用法案例WordCount

1.groupBy指明以某个元素分组 val source = Source.fromFile("E://data.txt","UTF-8") val lines = source.getLines() val list = lines.toL...

2018-11-08 09:51:48 2978 0

原创 五种方式实现WordCount单词计数的小案例

Java实现WordCount 思路:首先建立map集合----将文件按行读取------按规则进行拆分-----循环遍历放入map集合中。如果集合中没有元素就将单词与数字1放进去,如果集合中存在要添加的内容就将value+1覆盖原来的内容。 import java.io.*;impor...

2018-10-27 21:54:40 714 0

转载 git的使用

一:Git是什么? Git是目前世界上最先进的分布式版本控制系统。   二:SVN与Git的最主要的区别? SVN是集中式版本控制系统,版本库是集中放在中央服务器的,而干活的时候,用的都是自己的电脑,所以首先要从中央服务器哪里得到最新的版本,然后干活,干完后,需要把自己做完的活推送到中央服务...

2018-10-26 22:42:03 98 1

原创 Scala多线程实现

Actor 什么是Scala Actor (1)Scala中的Actor能够实现并行编程的强大功能,他是基于事件模板的并发机制。Scala是运用消息的发送接、收来实现多线程的。使用Scala能够更容易地实现多线程应用的开发。   多线程不是提高程序运行效率而是提高资源利用率   (2)并...

2018-10-26 16:48:47 1760 0

转载 java快速排序

import java.util.Arrays;   public class QuickSort {     public static void main(String[] args) {        int[] list= {49,38,65,97,76,13,27};     ...

2018-08-03 14:34:23 49 0

提示
确定要删除当前文章?
取消 删除