自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

浪淘沙

把酒祝东风,且共从容。

原创 Mysql编码设置

mysql> show variables like 'collation_%'; mysql> show variables like 'character_set_%'; 缺省是latin1编码,会导致中文乱码。 修改库...

2019-02-25 12:59:51 114 0

转载 三种方法解决 Job for network.service failed. See 'systemctl status network.service' and 'journalctl -xn'问题

 Failed to start LSB: Bring up/down networking 问题 &nbsp...

2019-02-21 20:10:23 3982 1

转载 Redis面试问题

Redis面试问题 一、Redis简介   Redis是一个key-vakue存储系统,支持五种存储结构:String,Hash,List,Set,Sorted Set。与memcached一样为了保证效率,将数据储存在内存中。区别的是Redis会周期的把更新的数据写入磁盘或者把修改操作写入追加的...

2019-02-20 13:16:45 146 0

原创 RE(正则)和Xpath

正则表达式 re匹配中文:[u4e00-u9fa5] 是一个计算机科学的概念 用于使用单个字符串来描述,匹配符合某个规则的字符串 常常用来检索,替换某些模式的文本 正则的语法 .(点号)表示任意一个字符,除了\n,比如查找所有的一个字符. []:匹配括号中列举的任意字符,比如[L,Y,0] ...

2018-12-27 20:15:12 487 0

原创 大数据面试总结

1.spark面试题: https://blog.csdn.net/wodwl/article/details/83301422 2.大数据学习题库: http://www.k6k4.com/simple_question/qlist?cat1=4 3.java面试常见问题 https://www...

2018-12-27 12:59:30 146 0

原创 Python3爬虫学习笔记一 (get,post,cookie,proxy,agent)

No.1 第一个python爬虫练习 from urllib import request,parse import chardet if __name__ == '__main__': url = 'https://blog.csdn.net/m...

2018-12-26 14:09:49 707 0

原创 hive 窗口分析函数

hive 窗口分析函数 0: jdbc:hive2://localhost:10000> select * from t_access; ±---------------±--------------------------------±----------------------±...

2018-12-24 17:20:07 63 0

原创 数据仓库问题总结

1.在关系模型中,实现“关系中不允许出现相同的元组”的约束是通过 “主键” 完成的。 2.在MySql中,concat函数的作用是是将传入的参数连接成为一个字符串,则concat(’aaa’,null,’bbb’)的结果是( NULL) 3.关于添加带自增列的数据:自增的列无须显式地添加。如需...

2018-12-03 19:37:31 783 0

转载 往gitHub上上传自己的项目

1。首先你得注册一个自己的GitHub账号,注册网址:https://github.com/join 有了自己的账号以后,就可以进行登录,开始创建一个新的项目 2.创建一个新的项目,填写项目名称,描述 3.创建完成之后,跳转到下面的页面,下面红框中的网址要记住,在后面上传代码的时候需要使用 ...

2018-12-02 17:27:27 82 0

原创 CMCC实时充值监控平台项目

一、项目介绍 1.1 项目背景          CMCC旗下拥有很多的子机构,基本可以按照省份划分. 而各省份旗下的充值机构也非常的多. 目前要想获取整个平台的充值情况,需要先以省为单元,进行省份旗下的机构统计,然后由下往上一层一层的统计汇总,过程太过繁琐,且统计周期太长. 且充值过程中会...

2018-10-23 21:40:20 1436 1

原创 SparkStreaming编程实现

1.产生实时流 nc -lk 1234 hello hadoop word hello spark hbase hive hello china ​ 2.MyNetworkWordCount.scala package day10 import org.apache.log4j....

2018-10-14 21:49:47 61 0

原创 SparkStreaming学习笔记

一、Spark Streaming基础       1:什么是SparkStreaming?         (*)Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等...

2018-10-14 21:17:55 77 0

原创 SparkStreaming_Kafka_Redis整合

1.将kafka  streaming 和 redis整合 实现词频统计    Producer.class  生成数据daokafka package day14; /** * 创建一个生产者 生成随机的key 和 字母 * 用于实现实时流统计词频 并 存储到redis */ im...

2018-10-14 20:56:53 470 0

原创 Redis学习笔记

优秀文档: https://www.cnblogs.com/bigben0123/p/9115597.html 1:redis的简介和特点      Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。  ...

2018-10-14 20:25:33 69 0

原创 Kafka学习笔记

一、Kafka介绍       1.1简介         Apache Kafka 是分布式发布-订阅消息系统(消息中间件)。它最初由 LinkedIn 公司开发,之后成为 Apache 项目的一部分。Kafka 是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。 ...

2018-10-14 19:46:07 196 0

原创 Flume学习笔记

flume学习笔记   一、什么是Flume?     Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种...

2018-10-14 18:09:11 321 0

原创 KafKa 代码实现

1.消费者 import org.apache.kafka.clients.consumer.ConsumerRecord; import org.apache.kafka.clients.consumer.ConsumerRecords; import org.apache.kafka...

2018-10-12 23:13:27 565 0

原创 SparkCore 编程

1.sparkCore实现wordCount(Idea+scala) import org.apache.spark.{SparkConf, SparkContext} object wordCount { def main(args: Array[String]): Unit = {...

2018-10-12 22:01:03 77 0

原创 Spark工具包

1.ApacheAccessLog 解析下列数据 194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1" 304...

2018-10-12 21:52:39 217 0

原创 spark求最受欢迎的老师的问题

文件内容: http://bigdata.edu360.cn/zhangsan http://bigdata.edu360.cn/zhangsan http://bigdata.edu360.cn/lisi http://bigdata.edu360.cn/lisi 1.求最受欢迎的老师,不...

2018-10-12 11:18:39 536 0

原创 Sprak学习--Maven实现之pom.xml配置

<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" ...

2018-10-12 10:47:12 57 0

原创 Spark 实现两表查询(SparkCore和SparkSql)

项目需求: ip.txt:包含ip起始地址,ip结束地址,ip所属省份 access.txt:包含ip地址和各种访问数据 需求:两表联合查询每个省份的ip数量 SparkCore 使用广播,将小表广播到executor.对大表的每条数据都到小表中进行查找。 package day07...

2018-09-30 11:08:35 2125 0

原创 SparkSql学习笔记一

一、SparkSql介绍 1.简介     Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。     为什么要学习Spark SQL?     我们已经学习了Hive,它是将Hive SQL转换成MapRe...

2018-09-30 10:57:13 93 0

原创 Spark Core 学习笔记

SparkCore学习笔记 1:Spark Core:内核,也是Spark中最重要的部分,相当于Mapreduce                 SparkCore 和 Mapreduce都是进行离线数据分析                 SparkCore的核心:RDD(弹性分布式数据集)...

2018-09-29 20:53:09 235 0

原创 Scala学习笔记

大数据框架(处理海量数据/处理实时流式数据)     一:以hadoop2.X为体系的海量数据处理框架         离线数据分析,往往分析的是N+1的数据         - Mapreduce             并行计算,分而治之             - HDFS(分布式存储数据)...

2018-09-27 22:00:50 224 0

原创 Spark实现排序

question: 用spark对数据进行排序,首先按照颜值的从高到低进行排序,如果颜值相等,在根据年龄的升序排序 1.User类继承ordered,并且序列化 package cn.edu360.spark.day06 import org.apache.log4j.{Level, Lo...

2018-09-27 21:22:27 1057 0

原创 Hbase学习笔记

一、Hbase简介 1.什么是Hbase     HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。     HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的...

2018-09-27 17:47:41 40 0

原创 ZooKeeper学习

一、Zookeeper概念简介 1.zookeeper是为别的分布式应用程序提供协调服务的。 2.zookeeper本身就是一个分布式程序,(只要有半数节点存活,就能正常服务。适合奇数节点) 3.提供的服务:主从协调,服务器节点动态上下线,统一配置管理,分布式共享锁,同意名称服务。 4.底...

2018-09-07 21:21:50 133 0

原创 Hive学习

一、什么是hive?          Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 特点: 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 延展性 Hive支持用户自定义函数,用户可以根据自...

2018-09-03 18:44:14 144 0

原创 MapReduce操作实例

  一、wordcount (1)纯本地运行 要点:有一个combiner方法,可以在执行完map时调用,从而对数据进行先一步的处理,降低Reduce的IO压力。 MapTask.java import java.io.IOException; import org.apache.h...

2018-08-27 18:49:13 701 0

原创 HDFS基本操作

一、hadoop搭建     1、修改主机名     2、ip等     3、主机映射     4、关闭防火墙(两种)     5、ssh免密登录(免密脚本)     6、安装jdk 配置环境变量     7、安装hadoop         配置文件的修改         hadoop-env....

2018-08-21 20:54:02 494 0

原创 Shell学习总结

shell编程 一、基础指令     1.ls指令         ../    上级目录         ./    当前目录         ls -al                      -l 表示list,一详细列表的形式显示             -a 表示显示所有目录和文件...

2018-08-16 17:13:28 54 0

原创 Linux学习

一、基础指令     1.ls指令         ../    上级目录         ./    当前目录         ls -al                      -l 表示list,一详细列表的形式显示             -a 表示显示所有目录和文件     2.pw...

2018-07-31 23:03:59 46 0

原创 Springmvc学习总结

1、Springmvc是属于表现层的框架,是Spring框架的一部分。 2、创建动态web工程,导入jar包。 3、创建Springmvc.xml <?xml version="1.0" encoding="UTF-8"?&...

2018-07-20 09:46:02 69 0

原创 Spring学习笔记_2

1.基于aspectj的注解aop操作(会用) 1.1创建对象 <bean id= "user" class="com.edu.nuc.bean.User"></bean> <bea...

2018-07-14 18:25:22 61 0

原创 关于数组的算法

1.将一个正方形数组顺时针旋转90°。package algorithm; /** * * @author hasee * */ public class RotageOrderPrint { public static void main(String[] args) { //...

2018-07-13 21:03:50 96 0

原创 桶排序的算法

1.求一个无序数组排好序后,相邻元素差值最大为多少,时间复杂度为O(N)思路:设数组的长度为len,创建三个长度为len+1的(桶)数组。将数组的元素根据大小放在不同的桶中,其中,必定有差值大于一个桶的差存在,故同一个桶中不可能出现差值最大的。三个数组,一个为maxs,一个为mins,一个为has...

2018-07-13 21:00:33 64 0

原创 关于队列的几个小算法

1、用静态数组实现队列的基本操作    思路 :创建3个变量,start,end,size; size用来查看数组的长度,从而实现添加和删除的长度控制。当添加数据时,如果end=size-1;说明end已经指向最后一位。所以:end = end==size-1 ? 0 : end++;    当删...

2018-07-13 20:42:42 646 0

原创 关于栈的几个小算法

1.用静态数组模拟栈    想法就是创建一个index变量,index指向含有值得下一个数组空间(假设数组中有两个值,index指向2)/** * 用静态数组模拟栈 * 用一个变量index来辅助 */ public class Stack1 { public static void ...

2018-07-12 21:53:11 525 0

原创 MyBatis学习笔记

MyBatis1.MyBatis是一个优秀的持久层框架,对jdbc的操作数据库的过程进行了封装,使开发者只需要关注SQL本身。  而不用花费精力去处理例如注册驱动,创建connection,创建statement,手动设置参数,结果集等jdbc繁杂的过程。2.MyBatis配置:  SQLMapC...

2018-07-12 21:37:19 487 0

提示
确定要删除当前文章?
取消 删除