米斯特拉克
码龄7年
关注
提问 私信
  • 博客:3,396
    3,396
    总访问量
  • 10
    原创
  • 1,949,638
    排名
  • 1
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-08-15
博客简介:

米斯特拉克的博客

博客描述:
生活明朗 万物可爱 我真菜!!!
查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得2次评论
  • 获得1次收藏
  • 博客总排名1,949,638名
创作历程
  • 1篇
    2020年
  • 9篇
    2019年
成就勋章
兴趣领域 设置
  • 大数据
    mysql
  • 后端
    架构
  • 服务器
    linux
创作活动更多

王者杯·14天创作挑战营·第2期

这是一个以写作博客为目的的创作活动,旨在鼓励码龄大于4年的博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见https://bbs.csdn.net/topics/619735097 2、文章质量分查询:https://www.csdn.net/qc 我们诚挚邀请你们参加为期14天的创作挑战赛!

83人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

linux yum无法使用

近期,在用yum下载ntp的时候,无法下载,百度好多解决办法,不仅很复杂,而且基本无法解决。一个很简单的方法就是直接换一个阿里的yum源。一开始用yum的时候,出现如下问题:百度很多方法都解决不了,后来询问前辈,简单粗暴,只需要换一个阿里的yum源就好了进入/etc/yum.repos.d目录,然后建一个文件(我建的是aliyun.repo)vim aliyun.repo 然后将如...
原创
发布博客 2020.04.29 ·
759 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Kafka入门

在安装Kafka之前,需要了解一些Kafka的概念Broker : 安装Kafka服务的一台机器就是一个broker(broker的id要全局唯一)Producer :消息生产者,负责将数据写入到broker中(push)Consumer:消息消费者,负责从kafka中读取数据(pull),旧版本的消费者需要依赖zk,新版本的不需要Topic: 主题,相当于数据的一个分类,不同topic存...
原创
发布博客 2019.11.21 ·
243 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark SQL数据源

1. 数据源1:JDBC1.1 使用load方法连接JDBC读取数据package com.bigdata.spark.day1021import java.util.Propertiesimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql._/** * JDBC 数据源 */object JDB...
原创
发布博客 2019.11.20 ·
334 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark SQL

1. Spark SQL基础1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据(二维表数据)的一个模块,它提供一个编程抽象DataFrame并作为分布式SQL查询引擎的作用。为什么要学习Spark SQL? Hive(离线)是将HQL转换成MR然后提交到集群上执行,大大简化了编写MR程序的复杂性,但是Hive(离线)如果数据量大,执行很慢,所以Spark SQL...
原创
发布博客 2019.11.05 ·
455 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Spark递交任务的流程

Spark递交任务的流程图流程分析:1.客户端发送请求;2.cluster manager接受请求(计算所需资源),并且给worker分配资源;3.worker启动 一个或者多个executor ;4.任务真正递交给从节点。打个比方客户端(客户),cluster manager(老板),woker(项目经理),executor(开发人员)1.客户提出需求(需要协调的资源)给老板;...
原创
发布博客 2019.09.30 ·
141 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark的RDD和算子

1.RDD概述1.1 定义RDD(弹性分布式数据集),Spark数据集的一个基本抽象。它是跨集群节点划分的元素的集合,可以并行操作。用户可以要求Spark将RDD保留在内存中,以使其能够在并行操作中有效地重用。RDD可以自动从节点故障中恢复。ARRAY VS RDD array是针对单机而言,RDD来源于分布式服务器,比如worker1,worker2…1.2 属性...
原创
发布博客 2019.09.30 ·
418 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

IDEA写WordCount

Scala WordCount1.配置pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...
原创
发布博客 2019.09.23 ·
247 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark基础学习

一、组成1.spark core:内核,同时它也是spark的核心组成部分,相当于MR(都是进行离线数据分析)spark core的核心:RDD(弹性分布式数据集)2.spark sql:相当于Hive3.spark streaming:本质还是RDD4.MLib5.GraphX二、Spark的体系结构和部署1.体系结构:主从结构(容易发生单点故障)2.部署(HA)准备:lin...
原创
发布博客 2019.09.17 ·
178 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop集群的搭建

前提:三台虚拟机(bigdata01、bigdata02、bigdata03),xshell模拟器一、集群简介Hadoop集群包含两个集群:HDFS集群:负责数据存储。Namenode/DatanodeYARN集群:负责集群数据运算时的资源调度。 ResourceManager /NodeManager(Mapreduce其实是一个应用程序开发包)二、集群搭建1.jdk安装(1).首...
原创
发布博客 2019.09.11 ·
262 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

虚拟机的配置

一、配置虚拟机(bigdata01)1.网卡配置vi /etc/sysconfig/network_scripts/ifcfg-eth-0对于在IP配置过程中出现的外网不通的问题,可以参考虚拟机连接外网虽然不太懂,但是很管用。。2.配置主机名vi /etc/sysconfig/network3.关闭防火墙chkconfig iptables off4.安装ssh客户端...
原创
发布博客 2019.09.09 ·
346 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏