大数据学习痕迹
大数据
学习笔迹
java基础
web基础
框架基础
EasyMall项目
汇通项目
京淘项目
乘风御浪云帆之上
行走的菜鸟
展开
-
HDFS漫画
http://blog.chinaunix.net/uid-27105712-id-3274395.html 分布式文件系统比较出名的有HDFS 和 GFS,其中HDFS比较简单一点。本文是一篇描述非常简洁易懂的漫画形式讲解HDFS的原理。比一般PPT要通俗易懂很多。不难得的学习资料。...转载 2018-07-08 17:27:04 · 509 阅读 · 0 评论 -
hadoop2.6.0-cdh5.7.0安装
下载Hadoop和JDK下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gzjdk推荐1.7版本安装JDK解压jdk压缩包 tar -zxvf /home/hadoop/software/jdk-7u80-linux-x64.tar.gz -C /usr/ja...转载 2018-08-16 11:34:53 · 1691 阅读 · 0 评论 -
Linux相关hadoop环境配置
Linux相关hadoop环境配置说明 此环境配置适合单机版配置操作系统的版本:centOS6.5jdk安装目录:/home/software/jdk/jdk8hadoop安装目录:/home/hadoop/app/hadoop-2.6.0-cdh5.7.0ssh:已经安装主机名:hadoop01JDK相关配置 JAVA_HOME=/home/softwar...原创 2018-08-16 13:19:46 · 279 阅读 · 0 评论 -
Java操作HDFS
Java操作HDFSmaven仓库【阿里仓库--支持chd的下载】配置文件 <mirror> <id>nexus-aliyun</id> <mirrorOf>*,!cloudera</mirrorOf> <name>Nexus aliyun</name>原创 2018-08-16 18:04:34 · 3248 阅读 · 1 评论 -
MapReduce入门
MapReduce入门MapReduce原理图例子:单词计数图解单词计数idea项目【maven项目】 pom文件 <repositories> <repository> <id>repo</id> <url>http://repo1.maven.org/mav...原创 2018-08-17 17:01:47 · 298 阅读 · 0 评论 -
JobHistory
JobHistoryJobHistory是什么JobHistory用来记录已经finished的mapreduce运行日志,日志信息存放于HDFS目录中,默认情况下没有开启此功能,需要在mapred-site.xml、yarn-site.xml配置,并手动启动。JobHistory怎么用 mapred-site.xml配置中添加 <property> ...原创 2018-08-20 14:56:48 · 764 阅读 · 0 评论 -
hadoop中Combiner和Partitioner
hadoop中Combiner和PartitionerCombiner是什么 Hadoop组合器类是MapReduce框架中的一个可选类,它添加在Map类和Reduce类之间,用于通过组合Map中的数据输出来减少Reduce类接收的数据量。 组合器的主要功能是汇总Map类的输出,以便能够管理来自reducer的数据处理的压力,并且可以处理网络拥塞。 怎么用 p...原创 2018-08-20 15:17:53 · 467 阅读 · 0 评论 -
Hadoop之日志分析
Hadoop之日志分析环境说明名称 版本 备注 宿主系统 Win7【64位】 VMware 12 虚拟机镜像 CentOS-6.5-x86_64-minimal.iso 下载地址(不同版本):http://vault.centos.org/ jdk jdk-8u65-linux-x64.tar.gz lin...原创 2018-08-24 17:09:46 · 4255 阅读 · 0 评论 -
Zebra项目图解
Zebra项目图解原创 2018-03-26 12:15:16 · 1898 阅读 · 5 评论 -
Zebra2
Zebra2复习进程和线程进程是程序加载到内存中被cpu计算的过程,进程是资源分配和任务调度的最小单位,引入进程的目的--减少响应时间,提高cpu的利用率。进程的状态:就绪,运行,阻塞。线程本质上是一个简化版的进程,线程是任务执行的最小单位。Bio和NioBIO是一个阻塞式的IONIO--基于缓冲区和通道,是非阻塞式的IO---允许数据的双向传输,减少流对象的创建,保证有效的事件交给服务器处理,能...原创 2018-02-28 20:03:17 · 553 阅读 · 2 评论 -
京淘项目总结
京淘项目总结项目整体结构项目设计初衷--有一套高可用、高并发的系统架构代码下载地址http://download.csdn.net/download/eieiei438/10250016原创 2018-02-12 22:16:29 · 5798 阅读 · 4 评论 -
大数据正式Zebra1
Zebra1进程进程程序加载到内存中之后被cpu所计算的过程,进程是计算机资源分配和任务调度的最小单位三个维度进程物理内存维度:每一个进程都要分配一个连续的内存空间【首尾地址】执行角度/逻辑角度:每个进程都可以被cpu计算,每一个进程都能挂起然后让另外的进程被cpu计算--对于单核cpu而言,每一个时刻只能执行一个进程【对于Windows而言,默认是一个核处理,对于linux而言,有几个核就可以用...原创 2018-02-27 16:42:12 · 1075 阅读 · 3 评论 -
大数据正式京淘13
大数据正式13定时任务防止恶意订单在订单提交之后,没有支付,但是订单没有生成效益,却减少了库存,如果大量生成这种订单,库存到0,无法继续购买解决方案虚拟商品数量:这个一直减,不是太好--适合紧急解决引入定时任务,超时未支付订单自动回库,库存自动回退电商:一天解决技术Timer的API插件:石英钟原创 2018-01-29 23:30:06 · 346 阅读 · 2 评论 -
大数据正式京淘附加爬虫
大数据正式京淘附加爬虫爬虫技术httpClient:抓取整个页面htmlUnit:可以二次提交jsoup:可以获取以上两个技术的所有内容jsoup爬取整个页面爬取整个网站爬取页面中的某一个定位信息爬取二次提交--ajax爬取jsonp数据例子测试之前的准备private ObjectMapper om;@o原创 2018-01-31 19:20:48 · 2696 阅读 · 2 评论 -
大数据正式京淘正式14
大数据正式京淘正式14传统的检索方式1.文本检索/windows检索全文检索、全文遍历加载到内存中缺点:数据一多,无法高效查询2.数据库中的检索select * from tb where name like '%X%';问题数据量庞大,难以存储like查询效率低现在的全文检索跟磁盘IO有关Btree索原创 2018-01-31 09:44:04 · 519 阅读 · 1 评论 -
大数据京淘知识点回顾
大数据京淘知识点回顾京淘整体项目--这个思路、思想是重点,其他为辅前台、后台分离项目横向、纵向分离跨域访问电商设计思路:高并发、高可用、流程云服务器部署EasyUI页面显示技术json、jsonpNGINX路径转换负载均衡Redis主从复制哨兵集群模拟访问网站HttpClient数据原创 2018-01-31 09:49:24 · 752 阅读 · 0 评论 -
大数据正式京淘12
大数据正式京淘12【前台我的购物车系统】展示购物车信息添加商品到购物车更改购物车中商品的数量局部刷新ajax异步请求购物车部分代码展示controller层package com.peng.controller;import java.util.List;import org.springf原创 2018-01-26 19:32:36 · 484 阅读 · 1 评论 -
大数据正式京淘11
大数据正式京淘11注册业务模块注册注册的逻辑用户填写信息+ajax异步校验,给出相应的提示注册成功:添加用户的信息到数据库登录业务模块登录登录的逻辑用户填写信息,简单判空校验后台数据的校验登录成功:展示主页和用户的部分信息;写入redis缓存--不同服务器都可以访问用户数据,解决sessio原创 2018-01-25 19:48:05 · 677 阅读 · 1 评论 -
大数据正式京淘10
大数据正式京淘10数据库的读写分离电商项目京淘项目的瓶颈有哪些数据库瓶颈IO【图片(文件)的上传】单数据库读写--锁、效率低简单改造利用redis减少数据库的压力,从而提升数据库的效率数据库的主从结构主:写数据从:备份数据,同时提供被读取Master和Slave的主从复制过程配置主上打开原创 2018-01-23 19:13:42 · 544 阅读 · 1 评论 -
大数据正式京淘9
大数据正式京淘9redis集群总结引入槽道:14384个虚拟槽道,扩展节点,无需修改代码删除节点线路割接了扩容比较常见数据迁移集群命令,无需代码逻辑槽道的本质两部分位序列(16384位二进制)共享数组(16384个元素)主节点各节点的位序列各不相同1管理;0不管理从节点位序列原创 2018-01-22 20:57:37 · 566 阅读 · 0 评论 -
大数据正式京淘7
大数据正式京淘7解决入口流量--NGINX的集群分配问题解决:配置多台DNS域名解析器图解京淘中加入缓存不方便维护Jedis池对象解决引入配置文件applicationContext-redis.xmlredis.properties将池注入到伪service中主从复制当原创 2018-01-19 22:43:06 · 533 阅读 · 1 评论 -
大数据正式京淘8
大数据正式京淘8Redis集群为什么用redis集群Redis哨兵的缺点横向扩展不方便;一旦扩展,无论代码结构多么操作简单,都需要修改散列分布式算法是hash一致性;无论多少的数据迁移,都会造成调用代码逻辑在扩展集群和收缩集群式做数据迁移Redis在3.0版本时引入redis集群的技术Redis集群解决了无论如何扩展redis集群原创 2018-01-21 21:34:56 · 1094 阅读 · 1 评论 -
大数据正式京淘6
大数据正式京淘6Redis基础命令set key value【修改值】incr key【自增】decr key【自减】incrby key 数字【按步数增长】decrby key 数字【按步数减退】append key value【追加数据】mset key1 value1 key2 value3【设置一批】--无法进行分片和集群计算,早期的Redis遗留功原创 2018-01-17 18:40:19 · 366 阅读 · 0 评论 -
大数据正式京淘5
大数据正式京淘5NGINX的conf的配置文件的正则表达式格式server { listen 端口; server_name 域名; location 正则表达式 { #返回 }} 规则= 精确匹配~ 区分大小写匹配~* 不区分大小写匹配!~和!~*分别为区分大小写不匹配及不区分大原创 2018-01-16 19:08:03 · 435 阅读 · 0 评论 -
大数据正式京淘4
大数据正式京淘4数据库性能数据库需要维护外键的内部关联(if语句,用代码关联)涉及外键的操作增删改查,判断外键消耗资源外键存在导致数据库的死锁表设计不适合外键关联用户量大并发高数据瓶颈开发成本高使用外键OA【办公自动化】CRM解耦PropertyPlaceHolderConfigurer原创 2018-01-15 17:03:33 · 556 阅读 · 0 评论 -
大数据正式京淘3
大数据正式京淘3EasyUI简介文档每个组件的easyui有属性、方法和事件。用户可以方便地扩展。属性属性定义在 jQuery.fn.{plugin}.defaults. 例如,对话框的属性定义在 jQuery.fn.dialog.defaults.事件这个事件(回调函数)也定义在jQuery.fn.{plugin}.defaul原创 2018-01-14 13:42:51 · 484 阅读 · 0 评论 -
大数据正式京淘1
大数据正式京淘1技术点Spring、SpringMVC、Mybatis框架富客户端EasyUI、KindEditor图文控件Maven项目管理工具PowerDesigner表设计及优化Mapper插件Nginx负载均衡Tomcat集群RESTFul访问方式HttpClient系统间调用Redis缓存服务器,分片,哨兵高可用RabbitMQ消息原创 2018-01-13 13:06:35 · 1054 阅读 · 2 评论 -
大数据正式京淘2
大数据正式京淘2项目统一编码:UTF-8环境:JDK1.8Maven:3.5数据库:5.5项目支撑系统搭建新建working set管理jt项目注:这个只是将同一个大项目中的子项目放到一起,便于管理和查看新建Maven(java)项目之jt_parent注:把公共的依赖配置在这里项目里新建Maven(jav原创 2018-01-13 13:07:25 · 1555 阅读 · 2 评论 -
java基础班
达内第一天预习检查 计算机程序java相关技术有哪些开发java程序步骤java基本框架java注释类型java编码规范老师讲 IT发展趋势:第一代(大型机)、第二代(pc/Mac MS Apple)、第三代(互联网)、第四代(移动互联网)操作系统和平台相关: 操作系统:简称OS,管理和控制计算机硬件和软件资源的计算机程序,是最基本的系统软件,其他任何软件都必须在操作系统之原创 2017-08-31 20:25:40 · 630 阅读 · 0 评论 -
大数据预科班1、2
大数据预科班第一天常见计算机命令.表示当前目录/表示根目录(windows盘符,linux则没有根目录)查看当前目录下的所有文件和子目录dir树状显示tree(ctrl+c暂停)创建目录mkdir a 或md a访问cd访问上一级cd..回到根目录下cd/删除目录rmdir a或 rd a (注:当该目录下有子文件不能删除)java1995年正式推出,web首选语言简单易学,原创 2017-09-01 22:50:35 · 461 阅读 · 0 评论 -
大数据预科班3
大数据预科班第二天复习1.进制(2,4,8,16)及换算2.变量:变量名、数据类型、数据3.数据类型:基本数据类型、引用数据类型;注意类型转换4.运算符:算数运算符、赋值运算符、关系运算符、逻辑运算符、位运算、(三目运算符)三目运算符逻辑/关系表达式 ? 表达式1 : 表达式2;执行顺序:逻辑/关系表达式结果为true,那么执行表达式1,反之执行表达式2表达式1和表达式2要求:类型一原创 2017-09-02 22:05:15 · 297 阅读 · 0 评论 -
大数据预科班3_小案例
小例子输入三个数,求最大值package com.tedu.study._day01;import java.util.Scanner;public class Demo01 { public static void main(String[] args) { System.out.println("请输入第一个整数:"); int a1=new Scan原创 2017-09-02 22:11:13 · 358 阅读 · 0 评论 -
大数据预科班4
大数据预科班第四天复习判断语句(if、if-else、if-else-if)选择结构(switch-case)循环结构(while、do-while、for 如果循环体只有一句,可以省略{},do-while必须有{})数组本质:一组数的容器,数组对每一个存入的数字都会自动编号,编号从0开始–即下标数组定义格式:数据类型[] 变量名=new 数据类型[数组大小或者元素的个数];int[]原创 2017-09-05 23:33:52 · 284 阅读 · 0 评论 -
大数据预科班5
大数据预科班第五天复习数组:定义好长度不可变、类型不可变二维数组:二维数组中的每一个元素都是一维数组定义格式:数据类型[][] 数组名=new 数据类型[二维数组的长度(或者称为包含一维数组的个数)][每一个一维数组的长度];获取具体的数据需要两个下标;第一的[]的值必须有,第二个可有可无;写第二个参数注意使用时必须初始化再使用,否则将报NullPointExeception;[]放在数据原创 2017-09-05 23:36:24 · 350 阅读 · 0 评论 -
大数据预科班1~4天习题
第一、第二天作业1.(标识符命名)下面几个变量中,那些是对的?那些是错的?错的请说明理由A. ILoveJavaB. $20C. learn@javaD. antony.leeE. Hello_WorldF. 2tige正确的:A B E 错误的:C(@符号不满足) D(.符号不满足) F(数字不能开头)2.假设有如下程序:package com.corej原创 2017-09-06 00:07:03 · 6058 阅读 · 0 评论 -
大数据预科班6
大数据预科班第六天复习二维数组:数组的数组,每一个元素是一个二维数组。函数:传参,对于基本类型传递的是实际值;对于引用数据类型,传递的是地址函数重载:函数名一致,参数不一致函数的递归:函数自己调用自己,当递归次数比较多的时候,会出现栈溢出错误:StackOverFlowError面向对象万物皆对象通过对抽取出共同的属性和方法,抽象成一个类。通过new关键字来创建对应类的一个原创 2017-09-06 22:46:17 · 347 阅读 · 0 评论 -
大数据预科班作业5~6
大数据预科班作业5、61. 写一个函数add,接受两个整数作为参数,返回这两个整数的和。package com.peng.demo;public class Demo01 { public static void main(String[] args) { // 测试 System.out.println(add(1, 2));原创 2017-09-06 23:49:26 · 4009 阅读 · 0 评论 -
大数据预科班1,2
大数据预科班第一、二天常见计算机命令.表示当前目录/表示根目录(windows盘符,linux则没有根目录)查看当前目录下的所有文件和子目录dir树状显示tree(ctrl+c暂停)创建目录mkdir a 或md a访问cd访问上一级cd..回到根目录下cd/删除目录rmdir a或 rd a (注:当该目录下有子文件不能删除)注:删除后在回收站里找不到删除的文件! 注:当原创 2017-09-07 21:02:04 · 487 阅读 · 0 评论 -
大数据预科班7
大数据预科班7复习1. 类与对象的关系:类是对象的概括,对象是类的具体化2. 成员变量和局部变量:定义位置、作用域、存储位置、生命周期3. 构造函数:与类名相同,而返回值类型(注:“类型”),可以重载--创建对象,初始化属性;任何一个类中都有构造函数4.this关键字--代表当前对象的引用5. this语句--用于在本类的构造函数中调用其他构造函数this放首行6. 局部代码块、构造代原创 2017-09-11 23:01:47 · 491 阅读 · 0 评论 -
大数据预科班8
大数据预科班8复习面向对象的特征:封装、继承、多态封装--体现形式:函数、属性私有化----复用性、安全性继承--extends,支持单继承---复用性、安全性、结构多态--重载、向上造型、重写(两等两小一等)权限修饰符:public、protected、默认、private;使用范围,从什么时候开始super--在子类代表父类对象的引用,可以通过super来调用父类中的方法和属性;s原创 2017-09-12 23:01:46 · 580 阅读 · 0 评论