大数据
文章平均质量分 92
刘广睿
每个人都翅膀 但是不代表每个人都可以学会飞翔
展开
-
网易云课堂-课程分析
网易云课堂不同类目的数据分析、包括会员、价位、课程数量、类目等等原创 2022-11-21 20:39:34 · 643 阅读 · 3 评论 -
java虚拟机知识____应付面试应该是够用了
JVM 目录JVM 体系结构概述1.1 类的加载机制1.2 类的加载器有哪几种1.3 双亲委派机制1.4 沙箱安全机制堆 体系结构概述堆 参数调优入门1.JVM体系结构概览2. 类加载器类的加载器一共有三种 BootStrapClassLoader、ExtensionClassLoader、AppClassLoader。加载顺序如下BootStrapClassLoader 加载下面路径下的依赖包C:\Program Files (x86)\Java\jdk1.8.0原创 2020-05-09 18:11:49 · 253 阅读 · 0 评论 -
HIVE之Map数据类型应用
使用场景场景一 (博主实际使用场景)因为公司近期涉及埋点数据的业务逻辑,对于扩展字进行补充因此采用map数据类型存储扩展字段.场景二 (其他业务场景)场景2.1我的项目里,生成的一个中间表,为了优化性能,里面有一列最好是个数组,因为如果把数组打散,每行上存一个元素,会因为其他列的重复导致数据量爆炸。首先想从上游表中生成这个数组,搜索半天文档,发现唯一的方式是把源数据列先转STRI...原创 2020-04-19 18:31:33 · 2358 阅读 · 1 评论 -
MySQL 拉取数据 、pandas转 excel 中文乱码
步骤1、Mysql 拉取数据2、封装data Frame类型3、转csv 文件输出 ( excel 打开中文乱码问题) import logging from tool.db_client.mysql_client.mysql import MySqlClient from config.file_conf import BASE_DATA_DIR fr...原创 2020-03-27 11:19:03 · 226 阅读 · 0 评论 -
MapReduce 原理深度剖析
一 . MapReduce 工作机制详解 1. MapTask工作机制2. ReduceTask工作机制3. Shuffle 机制Shuffle 就是从map的输出 到 Reduce阶段的输入 在这一过程中经历了OutPutCollection阶段的根据HashPartition的分区,到maptask阶段的缓存区的2:8划分 ,排序 ,Combiner的合并,当内存大于8的时候溢出到磁原创 2017-12-19 00:04:05 · 321 阅读 · 0 评论 -
(3) Hadoop-HDFS分布式文件系统
1. HDFS入门1.1 HDFS基本概念HDFS就是一个分布式文件系统,既然是文件系统就会有树形结构,既然是分布式就会涉及到集群的概念。所有文件系统都是用来存储数据的,而它的特点就是用来处理大数据和存储大数据。 1.2 HDFS解决的问题那些故障的检测和自动快速恢复 (一旦计算失败会恢复到曾经的状态从新计算)注重是数据高吞吐量 (吞吐量代表的是单位时间内处理的数据量) 可以用来存储大数据原创 2017-12-19 00:07:05 · 439 阅读 · 0 评论 -
(4) Hadoop-MapReduce计算模型
1. MapReduce计算模型理解因为mapreduce是大型分布式计算框架 ,出先两个关键词 1.分布式 2.计算框架。 可以从名字中解读就是运行在不同服务器上面的负责计算处理数据的框架。 关于MapReduce就是别人的博客出现最多的关键词就 “分而治之” ,分就 想个大的问题 分成若干小问题去解决,最后在合并到一起。 类似与 算1到10的和 可以单独两个数进行运算,最后在合并到一起求和 。原创 2017-12-19 00:10:44 · 416 阅读 · 0 评论 -
(8) Hadoop-工作流调度器azkanban
有个StreamSet工具可以使用 看着还挺不错的!工作流调度概述通常来说一个完整的数据采集流程都是各个单元组成前期的数据采集Flume或者linux脚本crontab,数据的预处理(MR),在处理后的数据导入到HIVE仓库,将多个表的数据进行join处理生成明细表,根据业务需求生成最后的数据报表,供起业务调用等 一套完善的流程。每个部分都是先后依赖存在时间关系,因此需要将各个单元有序的结合起来所原创 2017-12-19 00:11:16 · 672 阅读 · 0 评论 -
互联网金融风控模型
一、市场调研目前市面主流的风控模型 1、互联网金融前10名排行榜(数据截止日期2017-09-12)互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。1.1 蚂蚁金服1.1.1 大数据技术 对接第三方征信公司芝麻信用分,通过用户信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度对...原创 2018-02-08 12:00:22 · 50147 阅读 · 6 评论 -
Mysql 中的 case when 与HIVE 中 case when 的漏斗模式 区别
''' ,CASE WHEN social_credit_code IS NOT NULL THEN '10-统一社会信用代码' WHEN organization_structure_code IS NOT NULL THEN '20-组织机构代码' WHEN business_license IS NOT N...原创 2018-10-29 16:58:38 · 650 阅读 · 2 评论 -
pySpark 离线安装 python3
由于通过本地安装太慢、因此本人通过离线安装的方式 、加快安装速度。离线安装包 地址https://files.pythonhosted.org/packages/37/98/244399c0daa7894cdf387e7007d5e8b3710a79b67f3fd991c0b0b644822d/pyspark-2.4.3.tar.gz将下载下来的gz包解压 放到D:\test_fl...原创 2019-08-20 14:53:36 · 1917 阅读 · 0 评论 -
(12) Hadoop 升级技能
NameNode 元数据管理 (重点)0. fsimage/editsedits 存储的是对HDFS操作记录 fsimage 存储的是hdfs上面文件信息 nameNode 存储的数据的元数据信息,datanode的节点状态,block块的状态 1. 元数据目录元素据目录所在/home/hadoop-2.7.4/tmp/dfs/name/current Hadoop原创 2017-12-19 00:02:41 · 317 阅读 · 0 评论 -
hadoop汇总
Hadoop流程框架数据采集分两种,1.web服务器日志信息采集(通过埋点手段);2. 使用Flume工具将数据落地到HDFS上面 数据预处理通过MR Storm Spark等计算框架将数据日志信息进行过清洗导入HIVE仓库清理后的数据导入到HIVE仓库中ETL 对数据进行分析、统计,生成对应报表导入mysql数据库利用sqoop数据导入mysql数据或者或者HIve等。数据展示利用ec原创 2017-12-18 23:56:36 · 286 阅读 · 0 评论 -
HIVE汇总
Beeline version 1.2.1 by Apache Hive beeline> ! connect jdbc:hive2://node-1:10000HIVE 优化 (重点别不当回事)方法一 通过设置 set hive.groupby.skewindata = false,可以解决负载均衡问题。底层原理不清楚。使其不安装key的hash取模的方式,使其随机发送到reduce。减小原创 2017-12-18 23:54:19 · 1363 阅读 · 0 评论 -
Linux 上JDK安装 MySql安装 TomCat安装
01 . CenOS复制后虚拟机卡顿问题解决第一步 : 直接修改 /etc/sysconfig/network-script/ifcfg-eth0 删掉UUID HWADDR (不用担心这些参会自动重新生成配置) 第二步 : 查看 /etc/udev/rules.d/70-persistent-net.rules将eth1的物理地址 改为eth0的物理地址 删除et原创 2017-06-02 10:46:12 · 317 阅读 · 0 评论 -
Linux ---指令详解 ,目录结构(史上最全圈 最详细的文章)
分类常用命令文件相关命令系统命令用户和用户组权限文件夹属性vim安装软件打包与压缩正则表达式定向输出输入以及管道进程控制1 常用命令(初学者必会)安装linux时,创建一个itcast用户,然后使用root用户登陆系统 1.进入到用户根目录cd ~ 或 cd2.查看当前所在目录pwd3.进入到itcast用户根目录cd ~itcast4.返回到原来目录cd -5.原创 2017-06-01 11:50:57 · 542 阅读 · 0 评论 -
Zookeeper 介绍 安装 配置 原理 特点 分析
1. Zookeeper 介绍 分布式协调服务,同步服务,配置维护,命名服务 (目前我的理解也比较初级还不够深入)2. Zookeeper 安装安装环境版本 CenOS 版本 :CentOS-6.4-i386-bin-DVD1.iso JDK : 1.7 版本 Zookeeper版本 : zookeeper-3.4.10.tar.gz版本 (稳定版) 1. 安装J原创 2017-07-31 21:52:34 · 262 阅读 · 0 评论 -
基础加强-Linux时间同步
时间同步 CentOs说明:由于大数据中,集群对时间要求很高,所以集群内主机要经常同步时间(包括时区的同步)。常用的手动进行时间的同步date -s “2017-03-03 03:03:03”或者网络同步:yum install ntpdatentpdate cn.pool.ntp.org还可以进行如下的设置:1、yum install ntp2、vi /etc/ntp.conf修改如下部分:原创 2017-10-28 16:43:35 · 494 阅读 · 0 评论 -
基础加强-vmware-linux-shell
Vmware 、Linux虚拟网卡概念一台电脑上面可能有一个或者多个网卡,当创建一台虚拟机的时候就会有自动创建20虚拟交换机,VMnet0、VMnet1、VMnet8三中交换机,分别对应VMWare三种网络模式,虚拟网桥(Bridge)、虚拟DHCP服务器、虚拟NAT服务器虚拟交换机概念虚拟交换机就相当于路由器,每个交换机(路由器),创建一个虚拟机的时候就会创建20虚拟机MAC地址是什么?原创 2017-10-29 13:53:28 · 330 阅读 · 0 评论 -
基础加强 -zookeeper
Zookeeper1. 概述zookeeper是分布式协调服务,从本质上来说也是一个小型的分布式文件存储系统 ,有自己的树形目录结构,可以用来存储,监听,修改整个集群的状态。诸如统一命名服务、分布式配置管理、分布式消息队 列、分布式锁、分布式协调等功能。在dubbox集群中 作为dubbox服务的注册中心在solrcloud集群中作为 JAVA_OPTS=”-DzkHost=192.16原创 2017-10-29 13:56:28 · 347 阅读 · 0 评论 -
(2) Hadoop-集群搭建 HDFS入门
1.Hadoop 介绍概述用java编写开源框架,允许使用简单的API在大量的 计算机集群上 针对 大型数据集 进行分布式处理 。 Hadoop 核心组建 (狭义)HDFS (分布式文件系统):针对海量数据的存储 YARN (作业调度,集群资源管理框架) : 解决资源任务调度,资源包括内存 CPU 磁盘。。 MAPREDUCE(分布式运算编程框架):解决海量数据的计算Hadoop 生态圈原创 2017-10-30 18:41:01 · 346 阅读 · 0 评论 -
(1) Hadoop-网站流量日志数据自定义采集
数据与业务结合当想到业务 与 数据结合 , 数据 与 业务结合 当看到业务的时候 必须要联想到对应的技术点—- 这才是学习大数据的核心内容科技带来的发展(1) 分布式系统分布式项目CDN 动态资源服务器 nginx 静态资源服务器 (2) 大数据分析系统1. Web访问日志日志是用来手机 用户浏览 点击 访问行为的数据 日志的收集 分两种形式WEB服务器 例如 Httpd,ngi原创 2017-10-30 20:13:15 · 3526 阅读 · 0 评论 -
scala - 基础知识
1.def 定义的是一个方法,用下划线可以转换为方法 2.window 换行符是/r/n linux /n 《逐云》Scala 概述 2.11.8优雅,速度快,融合hadoop生态圈。未来或许会替代MR,个人认为不可能。最关键的就是 面向对象编程 和 面向函数编程 Windows 安装Scala编译器下载scala-2.11.8.msi后点击下一步就可以了。Linux安装Scala原创 2017-11-28 09:41:16 · 351 阅读 · 0 评论 -
Linux——网络配置介绍
常识IP : 192.168.253.135 (由路由器,网关或者虚拟器网关分配) Mask: 255.255.255.0 (子网掩码,用来判断是否处于同一个网段) Bcast : 192.168.253.255 (网段 = IP的二进制 && Mask的二进制) 1. DNS : 域名解析服务器例如 window是操作系统 本地, C:\window原创 2017-06-01 10:10:42 · 532 阅读 · 0 评论