白修修
码龄7年
关注
提问 私信
  • 博客:84,187
    84,187
    总访问量
  • 58
    原创
  • 2,156,539
    排名
  • 34
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2018-01-16
博客简介:

dd1296的博客

查看详细资料
个人成就
  • 获得84次点赞
  • 内容获得12次评论
  • 获得353次收藏
  • 代码片获得1,396次分享
创作历程
  • 58篇
    2020年
成就勋章
TA的专栏
  • 大数据问题处理
    2篇
  • 大数据环境搭建
    5篇
  • redis
    1篇
  • python笔记
    5篇
  • kafka
    3篇
  • spark streaming
    3篇
  • flume
    4篇
  • 大数据编程
    3篇
  • spark  sql
    2篇
  • Scala
    7篇
  • 大数据软件安装
    3篇
  • 大数据操作语句
    6篇
  • hadoop
    6篇
  • javaweb
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

如何将hbase里的数据导入hive

需求分析现在hbase中存有这样的一个表:简单来说,就是表名为‘user_friend3’,所在namespace为‘events_db’,有一个列族为‘uf’列族‘uf’中的数据有:现在要在hive中创建一个表来装下hbase中的表‘events_db:user_friend3’的数据。将hbase里的数据导入hive--优化--这是必要的准备工作set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.
原创
发布博客 2020.09.09 ·
1801 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

学习大数据第一步:搭建一个单机版的hadoop

学会在一个虚拟机上安装一个单机版本的hadoop,用于大数据学习。前提一个装有jdk的centos7虚拟机安装(1)解压cd /opt/hadoop --hadoop安装目录配置这三个文件etc/hadoop/hadoop-env.shexport JAVA_HOME=/opt/jdk8 --jdk安装目录etc/hadoop/core-site.xml<property> <name>fs.defaultFS&
原创
发布博客 2020.09.02 ·
353 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Redis安装(centos7)及简单操作(增删改查)

Redis安装1、下载安装包(Redis中文网可下)2、导入虚拟机然后用tar命令解压到指定文件夹然后cd 到刚刚解压的redis文件夹输入 make 命令执行最后出现:3、进入redis文件夹下的src目录这个文件夹下有许多文件我们需要执行 ./redis-server如果出现上图则说明安装成功!Redis简单操作(增删改查)...
原创
发布博客 2020.08.31 ·
388 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Python库介绍NumPy、Pandas、Matplotlib(3)

数据可视化数据可视化的意义传递速度快人脑对视觉信息的处理要比书面信息块10倍数据显示的多维性更直观的展示信息大脑记忆能力的限制数据可视化常见图形柱状图散点图饼状图Matplotlib绘图库matplotlib介绍一个有效Python 2D绘图库高版本也可以绘制部分3D图支持多种数据结构list,ndarray,Series,DataFrame使用Matplotlib的注意事项默认不支持中文–plt.rcParams[‘font.sans-serif’]=[‘SimHei
原创
发布博客 2020.08.28 ·
296 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python库介绍NumPy、Pandas、Matplotlib(2)

了解Pandas统计分析库Pandas介绍以NumPy库为底层基础提供了大量能快速便捷地处理数据的函数和方法可快速处理千万级以上的数据可以和Matplotlib等绘图库协作,快速实现数据可视化Pandas数据结构Series–value–indexDataFrame–由多列Series组成Series数据结构创建Series对象使用列表创建Series–自动生成索引–设置索引使用字典创建Series–key被设置为索引Series保存数据的特点数值类型可以不一致Se
原创
发布博客 2020.08.28 ·
186 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Python库介绍NumPy、Pandas、Matplotlib(1)

数据分析介绍目标发现新的特征对已有假设进行验证手段基于统计学原理借助数据分析软件或框架处理数据成果通常是图文结合的数据分析报告Python数据分析优势简单、易学,适合初学者作为入门语言拥有一个巨大而活跃的科学计算社区拥有强大的通用编程能力人工智能时代的通用语言Python数据分析常用库numpy、pandas、matplotlib、scipy常用开发工具Jupyter NotebookNumpy数据分析库支持高性能运算与矩阵运算高性能科学和数据分析库的基础包使用场
原创
发布博客 2020.08.28 ·
324 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Python学习笔记(2)

自定义函数定义函数:def func_name(参数列表): 函数体 [return/yield 函数返回值]Python函数的特点函数参数类型多样允许嵌套函数无需声明函数返回值类型yield可以作为函数返回值的关键字函数能够被赋值给变量Python的函数参数:无参函数位置参数 --传入的参数与定义的参数一一对应关键字参数 --直接通过等号传递参数默认值参数 --定义函数时,设置参数的默认值**注意:**定义参数时,非默认置
原创
发布博客 2020.08.25 ·
141 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka Streams练习

练习需求现有这样一个csv文件:现在要通过Kafka Streams把它变成这样:也就是说,原来的数据有"event,yes,maybe,invited,no"这五列,而且这五列的数据都是长度相当的id形式的数据。而"event"这一列只有一个数据,而其他的列里都有用空格隔开的多个数据。需求是要把它变成event所对应的每一个列名中的每一个数据。这个可能说的不是很清楚举个例子来说比如第一行的数据是这样的:现在要把它变成:这个应该比较清楚了:代码编写import org.apac
原创
发布博客 2020.08.24 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

python学习笔记(1)

python是一门多用途的胶水语言–人工智能、数据分析、大数据、爬虫、运维、网站开发python语言的部分特点:门槛极低需要和其他技能结合发挥作用的语言可以锦上添花,很难独当一面本人学习重点:Python语言Scrapy爬虫框架Python数据分析库PySpark呼应对比着其他语言来学对比Java和Scala思考每种语言的设计思想,体验Python语法有多随意配置环境变量:Python的工程结构模块(module)–一个Python文件就是一个模块.py source
原创
发布博客 2020.08.24 ·
359 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Spark Streaming 的窗口计算

什么是窗口计算?Spark Streaming 提供了窗口计算,它允许在数据的滑动窗口上应用转换。下图演示了这个滑动窗口。如图所示,每当窗口在源 DStream 上滑动时,位于窗口内的源 RDDs 就会被合并并操作,以生成窗口化的 DStream 的 RDDs。在本例中,操作应用于数据的最后 3 个时间单位,幻灯片应用于 2 个时间单位。这表明任何窗口操作都需要指定两个参数。–窗口长度—窗口的持续时间(图中为 3)。–滑动间隔—窗口操作执行的间隔(图中为 2)。这两个参数必须是源 DStrea
原创
发布博客 2020.08.23 ·
597 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark Streaming整合Kafka

编写Spark Streaming代码import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.InputDStreamimport org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtil
原创
发布博客 2020.08.23 ·
129 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark Streaming整合Flume(push方式和poll方式)

push方式1、编写代码(以word count为例)首先要引入maven包 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-flume_2.11</artifactId> <version>2.2.0</version></dependency>然后编写业务逻
原创
发布博客 2020.08.22 ·
213 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

自定义flume拦截器,如何使用

用java编写自定义拦截器import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;public class InterceptorDemo implements Interceptor {/
原创
发布博客 2020.08.20 ·
220 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

使用 Spark Streaming 处理有状态的数据,读取 TCP 6789 端口的数据,并进行词频统计。

对每个批次进行词频统计import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object SpStreamingDemo1 extends App {//todo 创建一个spark StrieamingContext对
原创
发布博客 2020.08.20 ·
343 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flume连接到kafka配置文件编写

flume像要连接到kafka主要需要编写sinks的配置,其他的正常用spooldir的配置就行话不多说,直接上代码user_friends.sources = userFriendSourceuser_friends.channels = userFriendChanneluser_friends.sinks = userFriendSinkuser_friends.sources.userFriendSource.type = spooldiruser_friends.sources.u
原创
发布博客 2020.08.19 ·
967 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kafka一些简单的常用命令

kafka常用命令启动kafka服务后台启动创建主题查看topic列表查看topic详情生产消息消费消息启动kafka服务bin/kafka-server-start.sh config/server.properties后台启动bin/kafka-server-start.sh -daemon config/server.properties创建主题kafka-topics.sh --create --zookeeper hadoopt:2181 --topic kb07demo --pa
原创
发布博客 2020.08.18 ·
195 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用flume将文件导入hdfs,如何写配置文件?

写配置文件现有一个.csv文件,需要导入hdfsuser_friends.sources = userFriendsSourceuser_friends.channels = userFriendsChanneluser_friends.sinks = userFriendsSinkuser_friends.sources.userFriendsSource.type = spooldir# 需要导入hdfs的文件目录位置user_friends.sources.userFriendsSou
原创
发布博客 2020.08.17 ·
565 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

使用spark DataFrame 算子解决mysql经典50题

首先还是回顾一下经典50题的数据数据展示student表score表teacher表course表之前我们都是用sql语句来处理,下面我们用spark DataFrame 里提供的算子来解决。这里我们的数据是从hive上获取的。话不多说,直接上代码:import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object Classic50 extends App { //todo 创建一个Spark
原创
发布博客 2020.08.17 ·
534 阅读 ·
1 点赞 ·
1 评论 ·
9 收藏

安装flume,并简单使用

1、安装flume首先解压flume安装包到CentOS7虚拟机的指定目录(基本操作)tar -zxf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /opt进入到/opt文件夹(刚刚安装flume的文件夹),改名mv apache-flume-1.6.0-cdh5.14.0-bin/ flume160514进入/flume160514/conf复制flume-env.sh.templatecp flume-env.sh.template flume-env.sh修改
原创
发布博客 2020.08.16 ·
351 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

通过样例类创建DataFrame,并用spark sql 操作

现有这样两份数据:1、该数据每日进行采集汇总。数据范围涵盖全国主要省份(港澳台、西藏、海南暂无数据)的 180+的大型农产品批发市场,380+的农产品品类(由于季节性和地域性等特点,每日的数据中不一定会涵盖全部的农产品品类)2、全国所有省级行政区和简称对上述的两份数据进行一些处理需求写在代码注释,话不多说,直接上代码:import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}
原创
发布博客 2020.08.13 ·
773 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多