- 博客(11)
- 资源 (3)
- 收藏
- 关注
原创 用户行为日志分析
用户行为日志生成渠道: Nginx,Ajax记录用户访问行为日志的原因: 网站页面的访问量 网站的黏性 推荐用户行为日志内容:1.访问的系统属性:操作系统,浏览器等等2.访问特征:点击URL,从哪个url 跳转过来的(referer),跳转页面上停留时间3.访问信息:session_id,访问ip(访问城市)用户行为日志分析的意义: 离线数据处理架构: 1.数据采集 ...
2018-03-31 15:52:17 1944
原创 分布式计算框架Mapreduce
概念: Mapreduce是一种编程模型,编程方法,采用“分而自治”思想优点:海量数据离线处理,易开发,易运行。缺点:实时流式计算MapReduce编程模型之执行步骤: 输入一个大文件,通过Split之后,将其分为多个片 每个文件分片由单独的机器去处理,这就是map方法 将各个机器计算的结果进行汇总并得到最终的结果,这就是reduce方法MapReduce的四个阶段: Spi...
2018-03-31 15:51:49 2980
原创 maven介绍
概念: 基于项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具。 管理项目,自动化构建工具,包含了编译,运行,测试,打包,部署,管理Jar包 目录解释: bin:运行脚本 boot:一个类加载器框架 conf:配置文件 lib:类库 maven常见命令: mvn -v 查看maven版本 -compil...
2018-03-27 22:35:53 154
原创 资源调度框架Yarn
Yarn(Yet Another Resource Negotiator)产生背景 Hadoop1.x时: MapReduce:Master/Slave架构,一个JobTracker带多个TaskTracker JobTracker:负责资源管理和作业调度 TaskTracker:定期向JT汇报节点的健康状况,资源使用情况,作业执行情况; ...
2018-03-27 21:12:02 275
原创 JUnit
Juint的使用 1.测试方法上必须有@Test进行修饰 2.测试方法必须使用public void 进行修饰,不能带任何参数 3.新建一个源代码目录来存放我们的测试代码 4.测试类的包应该和被测试类保持一致 5.测试单元中每个方法必须可以独立测试,测试方法间不能有依赖 6.测试类使用Test作为类名的后缀(不是必须) 7.测试方法使用test作为方法名的前缀(不是必须)1.Failure一般...
2018-03-15 21:19:35 164
原创 hadoop介绍
Hadoop名字由来 作者孩子的棕黄色小象的名称Hadoop简介 开源的,分布式存储+分布式计算平台作用 搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务 搜索引擎,日志分析,商业智能,数据挖掘分布式文件系统HDFSHDFS是GFS的克隆版特点:扩展性,容错性(多副本),海量数据存储将文件切分为指定大小的数据块并以多副本的存储在多个机器上数据切分,多副本,容错等操作对用户是透明的...
2018-03-15 12:39:16 1545
原创 大数据概述
大数据基本概念之大数据4V特征 Volume(数据量大) Variety(种类多,数据类型) Velocity(速度快) Value(价值)大数据涉及的技术 数据采集 数据存储 数据处理/分析/挖掘 可视化 大数据在技术结构上带来的挑战 对现有数据库管理技术的挑战 经典数据库技术并没有考虑数据的类别 实时性的技术挑战 网络架构,数据中心,运维挑战...
2018-03-14 17:04:18 218
原创 HQL数据查询
HQL定义 Hibernate Query Language HQL面向对象的查询语言 HQL查询的是映射配置的持久化类及其属性 SQL查询的是数据库表HQL语句形式 select....from......where... group by.... having.... order by...初学HQL注意的问题 1.HQL是面向对象的查询语言,对JAVA类和属性大小写敏感 2....
2018-03-13 19:08:23 308
原创 Hibernate之一对多映射
inverse属性<set>节点的inverse属性指定关联关系的控制方向,默认由one来维护。关联关系中,inverse=“false”则为主动方,由主动方负责维护关联关系在一对多关联中,只能设置one方的inverse为true,这将有助于性能的改善。cascade属性当设置cascade属性不为none时,Hibernate会自动持久化所关联的对象cascade属性设置会带来性能...
2018-03-11 22:57:03 108
原创 Hibernate的介绍
简介hibernate的前缀可以省略,即:hibernate.dialect等同于dialectsession可以理解为数据库对象session与connection,是多对一的关系,每个session都有一个与之对应的connection,一个connection不同时刻可以供多个session使用hibernate对数据操作都是封装在事务当中,并且默认是非自动提交的方式。所以用session保...
2018-03-10 23:39:27 160
原创 HDFS文件系统
一.HDFS简介1.进行块存储。 Hadoop1.x默认的block大小:64MB Hadoop2.x默认的block大小:128MB 可以在hdfs-site.xml中设置参数,dfs.block.size 数据块大不适合并行,系统启动加载数据慢2.有两类节点:NameNode和DataNode3.NameNode是管理节点,存放文件元数据。 文件与数据块的映射表 数据块与数据节...
2018-03-07 19:34:03 315
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人