自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 回归模型的自我理解

目录 最小二乘法 背景故事 原理及推导过程 一元线性回归模型 多元线性回归模型 逐步回归 多重共线性 多重共线性和最小二乘法 岭回归(RR) LASSO回归 最小角回归 广义线性回归模型 逻辑回归模型 回归:数据有“回归到平均数的趋势” 回归分析研究因变量和自变量的关...

2019-06-28 21:23:06

阅读数 82

评论数 0

原创 scala之函数篇

目录 def关键字 函数的定义:(=>) 柯里化技术 偏函数 成员函数和本地函数 匿名函数和高阶函数 fllter和foreach 递归函数 lazy懒值 def关键字 scala通过def 关键字来定义函数.形式: def 方法名称(参数列表):方法的返回值...

2019-06-27 20:36:13

阅读数 35

评论数 0

原创 scala之 类与对象

目录 object class 抽象类 特质Trait 样例类,样例对象 模式匹配 object 单例的对象,里面定义的成员变量 和 方法都是静态的(static),如果要编写和运行main,必须要写在单例对象类中 伴生对象: 当object 的名称和类的名称一致的时候。,这个...

2019-06-27 20:35:00

阅读数 42

评论数 0

原创 scala之集合Collection篇

目录 Array 定义数组方式 常用方法 List set Map Tuple(元组) 总结集合相关API Array 1.Array: 长度不可变,内容可变 2.immutable:定长数组是Array,一经声明,数组长度不能更改。 3.mutalbe:变长数组是Arra...

2019-06-27 20:32:03

阅读数 39

评论数 0

原创 scala基础语法篇

目录 安装 数据类型 变量,常量 字符串 操作符 条件表达式 while用法 for循环 for yield 表达式 声明map(key->value) 异常处理机制 break 和continue 安装 1.window安装,一路下一步 2.cmd 窗...

2019-06-27 20:27:32

阅读数 29

评论数 0

原创 机器学习是个啥

目录 相关概念阐述 什么是机器学习 机器学习的应用 机器学习算法概述 强化学习(RL) 相关概念阐述 数据挖掘:data mining,如何从海量数据中挖掘出有用的信息来。 机器学习:machine learning,目标是归纳一个x->y的函数(映射),来做分类、聚...

2019-06-27 16:52:46

阅读数 118

评论数 0

原创 序列化框架之AVRO

目录 概述 序列化 RPC 概述 1.AVRO是Apache提供的开源框架,可以完成序列化以及RPC过程 2.原来是Apache Hadoop项目的子项目,后来不止可以用于Hadoop,也可以用于其他框架中进行序列化以及RPC,所以单立出来成为了Apache的顶级项目 3.AVRO在...

2019-06-26 15:53:59

阅读数 33

评论数 0

原创 NIO

目录 简述 NIO与BIO的比较 NIO组成 Buffer 缓冲区 存储类型 重要的位置 重要的操作 常用语法 Channel 通道 Selector-多路复用选择器 简述 用于完成数据的传输 BIO - BlockingIO - 同步式阻塞式IO NIO - NonB...

2019-06-24 09:05:54

阅读数 37

评论数 0

原创 精英教育业务数据处理分析

目录 业务背景 业务需求: 生产测试数据 导包 模板文件: jyjy.ftl 生成bean类 准备数据类 Hive中存储json格式的数据 加载hcatalog包,此包已经包含在hive中 创建可以处理json格式数据的表 加载数据 Flume收集数据到Hive表 1.配...

2019-06-23 16:45:47

阅读数 32

评论数 0

原创 如何通过SpringData操作Hive数据

目录 1.创建项目导入相关依赖 2.编写Spring配置文件 3.启动Hive的远程连接服务HiveServer2 4.通过API操作HIVE 1.创建项目导入相关依赖 <project xmlns="http://maven.apache.org/POM/4...

2019-06-23 15:52:55

阅读数 178

评论数 0

原创 SpringData入门案列

springData基础 目录 1.创建项目,导入依赖:pom.xml 2.配置Spring核心配置文件:ApplicationContext.xml 3.创建实体: 4.Repository接口 5.Repository接口中方法定义约定 6.@Query注解自定义SQL 7.C...

2019-06-23 15:25:20

阅读数 52

评论数 0

原创 Hive中存储json格式的数据

启动hadoop start-all.sh 启动hive ./hive 加载hcatalog包,此包已经包含在hive中 add jar hive目录/hcatalog/share/hcatalog/hive-hcatalog-core-1.2.0.jar; 准备一批jso...

2019-06-21 19:52:06

阅读数 171

评论数 0

原创 爬虫入门案例——爬取电影信息

综述:先介绍开发环境,在介绍从豆瓣电影上面爬取电影的电影名称,电影信息,电影剧照等信息,最终效果是以电影名称为文件夹名,文件夹包含一个txt文件和许多张剧照。如下图所示1是电影名,2是电影信息,3是各种剧照 1.Python爬虫框架 比较知名框架的是Scrapy 和PyS...

2019-06-20 12:56:32

阅读数 291

评论数 0

原创 静静网站流量分析项目之集群部署_10

浏览器访问应用服务器,得到的页面触发JS,JS采集的数据通过网页嵌入的图片提交到日志服务器 ,日志服务器通过Log4jAppender发给FlumAgent进行数据收集,FlumAgent将数据通过随机分发在两个中心服务器上。 离线分析: 中心服务器将数据按日期存储在HDFS上,用hive对HD...

2019-06-19 11:33:25

阅读数 37

评论数 0

原创 静静网站流量分析项目之echarts可视化展示_9

回顾上一篇已经将数据存储在mysql中,在这一篇我们将需要把mysql中的数据以图表的形式展现出来。 获取数据库数据 需要导入mysql驱动包 具体代码实现: package com.lj; import java.io.IOException; import java.sql.Con...

2019-06-19 09:14:08

阅读数 69

评论数 0

原创 静静网站流量分析项目之实时分析sparkstreaming_8

简单回顾在上一篇介绍了如何将Flume的sink数据实时导入kafka。 本篇将主要介绍sparkstreaming消费kafka数据,将消费到的数据“kafkaStream”在spark清洗数据,得到清洗后的数据“clearStream”,处理数据(基于清洗后的数据算出8个指标)得到结果数...

2019-06-18 19:43:16

阅读数 84

评论数 0

原创 静静网站流量分析项目之实时分析消费flum数据_7

目标:将flum中心服务器的数据发布一份到kafka,用到的是Kafka Sink。 1.修改两个节点的Flume中心服务器配置 增加kafkaSink,将数据实时导入kafka #声明Agent a1.sources = r1 a1.sinks = k1 k2 a1.channel...

2019-06-18 14:29:48

阅读数 62

评论数 0

原创 静静网站流量分析项目之自动化执行脚本_6

1.在MySql中创建需要的数据库和表 create database JingJingdb; use JingJingdb; create table tongji1( reportTime date, pv int, uv int, vv int, br double, n...

2019-06-18 13:00:48

阅读数 80

评论数 0

原创 静静网站流量分析项目之hive数据处理_5

数据处理简单来说就是要用hsql真正的来实现我们的业务逻辑 1. 利用Hive实现业务指标的计算 a. PV 访问量,一天之内访问的总量,有多少条日志就是多少个访问量。 select count(*) as pv from dataclear where reportTime='2019...

2019-06-18 10:57:20

阅读数 34

评论数 0

原创 静静网站流量分析项目之离线处理_数据清洗_4

在这一片我们将介绍如何将HDFS上的数据进行清洗得到自己想要的数据。在HDFS上我们得到的如下的信息 "http://localhost/FluxAppServer/a.jsp|a.jsp|A页面|UTF-8|341x256|24-bit|zh-cn|0|1||0.551426345...

2019-06-18 09:15:16

阅读数 40

评论数 0

提示
确定要删除当前文章?
取消 删除