- 博客(12)
- 收藏
- 关注
原创 数据分析(1)描述分析
一、基本统计分析 1、样本均值: 2、样本中位数: 3、样本分位数 4、样本众数 5、样本极差 6、样本方差:SUM((样本值-样本均值)^2 )/n-1 7、样本标准差:POWER(样本方差,2) 8、频数:样本值出现次数 9、峰度:大于0比标准正太陡,小于0比正太分布平缓 10、偏度:大于0峰值靠右侧,小于0峰值靠左侧 11、Z分位:样本值与样本均值相差多少个标准差(标准差倍数) 12、T分位:Z分位的线性变换(为了数据更好看一些) 二、探索分析 1、正态性检验:样本是否符合正太分布 2、卡方检验:交叉
2020-09-09 22:55:06
601
原创 大数据项目实践--手机日志分析
一、准备win10开发环境 1、下载jdk-8u45-windows-x64.exe 安装于D:\Java8 2、修改JAVA_HOME为 D:\Java8\jdk1.8.0_45 3、修改HADOOP_HOME为 D:\hadoop272 4、复制hadoop 2.7.x 的 winutils等文件到D:\hadoop272\bin,否则eclipse无法进行调试 5、复制hadoop-eclipse-plugin-2.7.2至D:\eclipsehadoop272\plugins 二、搭建cent
2020-08-17 14:18:22
1363
原创 Spark Core&Sql Scala&Java实验
1、Eclipse安装Scala插件 help->install new software add scala-ide http://download.scala-ide.org/sdk/lithium/e44/scala211/stable/site 选择安装 scala ide for eclipse 重启eclipse 2、
2020-08-01 22:07:59
280
原创 scala spark kafka 集群部署 及简单实验
1、上传scala-2.10.4.tgz 至 /usr 并解压 tar -zvxf scala-2.10.4.tgz 2、编辑/etc/profile export SCALA_HOME=/usr/scala-2.10.4 export PATH=$PATH:${SCALA_HOME}/bin 更新系统设置 source /etc/profile 3、测试 [root@lining05 usr]# scala Welcome to Scala version 2.10.4 (Java HotSpot(
2020-07-25 20:56:11
310
原创 flume实验
1、上传flume-ng-1.5.0-cdh5.3.6.tar.gz 至/opt/modules/cdh/ 并解压 2、编辑 /conf/flume-env.sh export JAVA_HOME=/usr/java/jdk1.7.0_79 3、编辑/etc/profile export FLUME_HOME=/opt/modules/cdh/apache-flume-1.5.0-cdh5.3.6-bin export PATH=$PATH:$FLUME_HOME/bin 4、flume业务情景 fl
2020-07-24 16:05:47
823
原创 Hbase JAVA 项目实验
1、本项目使用MAVEN部署因此先部署本地MAVEN仓库,下载apache-maven-3.6.3 至D:\apache-maven-3.6.3,配置环境变量 MAVEN_HOME=D:\apache-maven-3.6.3 PATH=%MAVEN_HOME%\bin 2、修改D:\apache-maven-3.6.3\conf\settings.xml 修改本地仓库地址 <localRepository>D:/apache-maven-3.6.3/repository
2020-07-22 21:23:29
201
1
原创 Sqoop 实验
1、使用windows客户端登录mysql建表 修改虚拟机mysql的远程登录权限 mysql -uroot -proot; use mysql; show tables; update user set host='%' where host = 'localhost'; flush pricilges; 给本地ip 192.168.198.1及lining05授权 GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.198.1' IDENTIFIED BY
2020-07-15 19:40:33
393
原创 CDH5.3.6在centos6.5上集群安装(2)
29、将zookeeper-3.4.5-cdh5.3.6.tar.gz 上传至/opt/modules/cdh cd /opt/modules/cdh tar -zxvf zookeeper-3.4.5-cdh5.3.6.tar.gz cd /opt/modules/cdh/zookeeper-3.4.5-cdh5.3.6 mkdir data cd /opt/modules/cdh/zookeeper-3.4.5-cdh5.3
2020-07-14 16:39:39
127
原创 CDH5.3.6在centos6.5上集群安装(1)
1、/etc/selinux/config -> SELINUX=disabled /etc/hosts -> 192.168.198.131 lining05 /etc/sysconfig -> HOSTNAME=lining05 /etc/sysconfig/network-scripts/ifcfg-eth0 -> DEVICE="eth0" BOOTPROTO="static" NM_CONTROLLED="yes" ONBOOT="yes" TYPE
2020-07-05 13:33:57
154
原创 hive 操作笔记
1、CDH HIVE 5.3.6 配置 1.1 下载 CDH 组件环境 http://archive.cloudera.com/cdh5/cdh/5/jdk-7u79-linux-x64.tar.gz http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.5.0-cdh5.3.6.tar.gz http://archive.cloudera.com/cdh5/cdh/5/hive-0.13.1-cdh5.3.6.tar.gz http://archive.cloud
2020-07-04 21:21:54
157
原创 Hdfs 初学实验笔记
Hdfs 实验Hdfs 实验1、windows 单机 安装hadoop2722、linux虚拟机 三台安装 hadoop 2.7.23、JAVA操作WINDOWS上的HDFS4、JAVA操作Linux上的HDFS5、MapReduce WordCount 项目6、MapReduce PhoneFlow 项目 Hdfs 实验 本篇文章为Hdfs基础实验整体流程,中间如有不详处,或因环境所致踩坑,请自行baidu解决 1、windows 单机 安装hadoop272 (hadoop3.2暂时没有windows环
2020-05-22 10:36:17
412
原创 MySql数据库更新表的物理排序
表中数据原本是按插入顺序排列的,如想按照特定列重排表中数据,使用 alter table ‘tablename’ order by `field1` , `field2`;
2020-05-15 11:20:36
656
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人