不想当和尚
码龄5年
关注
提问 私信
  • 博客:8,540
    8,540
    总访问量
  • 29
    原创
  • 1,412,579
    排名
  • 5
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2020-04-08
博客简介:

lhmqy的博客

查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得1次评论
  • 获得14次收藏
创作历程
  • 29篇
    2020年
成就勋章
TA的专栏
  • 整理
    20篇
  • 题目整理
    3篇
  • 软件安装配置
    6篇
  • 小白使用Linux
    1篇
  • 初学MySQL
    1篇
兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

日志数据操作--json转成表格式

日志处理流程,json转成表类型格式。日志数据前有一时间戳,后面才是json格式数据。导入SPARKSQL所需要的包scala> import spark.implicits._import spark.implicits._scala> import org.apache.spark.sql.functions._import org.apache.spark.sql.functions._scala> import org.apache.spark.sql._impor
原创
发布博客 2020.10.15 ·
318 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark算子、DF、hive、hbase操作

–使用rdd和sparkSQL业务查询sparkSQL创建datafrom:1.数据准备(10 分)请在 HDFS 中创建目录/app/data/exam,并将 meituan_waimai_meishi.csv 文件传到该目录。–通过 HDFS 命令查询出文档有多少行数据。hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l2.使用 Spark,加载 HDFS 文件系统 meituan_waimai_meishi.csv
原创
发布博客 2020.10.15 ·
465 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

算法大悲赋之KNN算法

一、描述首先,KNN算法是一个初级算吧,书面解释是: KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。太繁琐晦涩了,所以我用KNN算法的实际事例来分部解释。二、秘籍部分算法是用Python开发的,首先导包,不解释#导入
原创
发布博客 2020.09.15 ·
198 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

微小型数仓案例整理

一、MySQL导入数据数仓是建立在 hive 上,有两层(ODS 层 rds 库)和 DW 层(tds 库),存储格式日期维度 textfile,其他 orc。可使用命令导入sql文件。建mysql表语句:CREATE DATABASE IF NOT EXISTS sales_source DEFAULT CHARSET utf8 COLLATE utf8_general_ci; USE sales_source;DROP TABLE IF EXISTS customer;DROP TABL
原创
发布博客 2020.09.03 ·
409 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flume常用操作conf代码

一、数据写入到kafka中event_attendees.sources = event_attendeesSourceevent_attendees.channels = event_attendeesChannelevent_attendees.sinks = event_attendeesSinkevent_attendees.sources.event_attendeesSource.type = spooldirevent_attendees.sources.event_attende
原创
发布博客 2020.08.24 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

将表格数据从kafka提取出,编辑后再存入kafka。

一、功能需求将表格去掉表头,分成map型数据二、 代码import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;import org.apache.kafka.streams.kstream.KStream;import java.util.ArrayList;import java.util.List;import java.util.Properties;import j
原创
发布博客 2020.08.24 ·
362 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark初级题目练习

一、有以下两个文件,字段分别为:orderid(订单ID),userid(用户ID),payment(支付金额),productid(商品ID)。使用Spark完成以下需求。file1.txt1,1768,50,1552,1218,600,2113,2239,788,2424,3101,28,5995,4899,290,1296,3110,54,12017,4436,259,8778,2369,7890,27file2.txt100,4287,226,233101,6562,4
原创
发布博客 2020.08.21 ·
1368 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Kafka之Proreducer和Consumer(java编写)

Proreducerimport org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import java
原创
发布博客 2020.08.18 ·
196 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

kafka安装整理,附带常用命令

// 配置环境变量export KAFKA_HOME=/opt/kafkaexport PATH=$PATH:$KAFKA_HOME/bin// 启动Kafka普通启动和后台启动kafka-server-start.sh ./config/server.propertieskafka-server-start.sh -daemon ./config/server.properties// 创建topickafka-topics.sh --create --zookeeper 192.16
原创
发布博客 2020.08.18 ·
139 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark题目练习

建表:private val schema = StructType(Array( StructField("student_id", IntType, true), StructField("student_name", StringType, true), StructField("birth", StringType, true), StructField("sex", StringType, true) ))val rdd = sc.makeRDD(Array
原创
发布博客 2020.08.17 ·
343 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark处理日志文件事例

import org.apache.commons.lang.StringUtilsimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object LogWork extends App{ //todo 1、创
原创
发布博客 2020.08.17 ·
232 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flume日志收集系统的常用命令和常用操作

一、拦截器java写完,打包放入flume的lib文件夹下。package com.nj;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;public class Interc
原创
发布博客 2020.08.17 ·
311 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scala函数大全整理,最易理解

注:aggregate、collect、collectFirst、flatMap、fold++描述:c=a++b。合并集合,并返回一个新的序列,新数组包含两个集合的内容 val a=Array(12,13,14,15,16) val b=Array(9,8,7,6,5) val c=a++b println(c.mkString("|")) //12|13|14|15|16|9|8|7|6|5++:描述:c=a++:b。同上,c序列的类型有冒号右边的b决定 va
原创
发布博客 2020.07.31 ·
624 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

hive重点函数整理

注:以下范列中数据为举例假设,不是实时数据。一、数字函数1、round(double a)描述:返回 double 类型的整数值部分 (遵循四舍五入)select round(3.1415926); --> 3select round(3.5); --> 42、round(double a,int b)描述:返回指定位数 b 的 double 类型select round(3.1415926, 4); --> 3.14163、floor(double a)描述:返回
原创
发布博客 2020.07.20 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive-UDF函数使用方法范例整理

一、hive函数的使用|返回值|函数|事例| string | concat(string|binary A, string|binary B…) | ||–|--|–|| | |二、hive自定义函数三、hive性能优化
原创
发布博客 2020.07.16 ·
260 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop高可用集群个人搭建整理

一、安装前的配置要求hadoop高可用集群规划,请保证 Hadoop 完全分布式和 ZooKeeper 完全分布式环境已经安装完成。二、开始安装我这边是用了三台虚拟机,主机名分别是hadoop01,hadoop02,hadoop03。我是设置hadoop01是主机,hadoop02是副主机。更改hadoop下的文件配置。打开文件:vi core-site.xml<configuration> <property> <name>fs.defaul
原创
发布博客 2020.07.06 ·
142 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

集合框架内容整理

集合框架与泛型如果并不知道程序运行时会需要多少对象,或者需要更复杂方式存储对象——可以使用Java集合框架集合Collection的特点:无序,可重复列表List的特点:有序(插入顺序),可重复ArrayList:是List的一个实现类,底层由数组构成实现了长度可变的数组,在内存中分配连续的空间,遍历元素和随机访问元素的效率比较高扩容数组时,新数组长度是原来的1.5倍增:add(值),addAll(集合对象)删:remove(下标),remove(值),removeAll(集合对象)改;s
原创
发布博客 2020.07.01 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Java、数据库、大数据。。面试题目整理(不断更新)!!!

一、Java部分选择题部分1.以下关于 abstract 关键字的说法,正确的是(D)。A.abstract 可以与 final 并列修饰同一个类。B.abstract 类中不可以有 private 的成员。C.abstract 类中必须全部是 abstract 方法。D.abstract 方法必须在 abstract 类或接口中。2.以下方法,(B)不是对 add 方法的重载。//重载和方法返回值有关联,和返回值无关系。public class Test{public void add(
原创
发布博客 2020.07.01 ·
402 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MapReduce原理及初步编程

什么是MapReduceMapReduce是一个分布式计算框架:将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google;适用于大规模数据处理场景。每个节点处理存储在该节点的数据。每个job包含map和reduce两部分。MapReduce的设计思想分而治之简化并行计算的编程模型构建抽象模型:Map和Reduce开发人员专注于实现Mapper和Reducer函数隐藏系统层细节,开发人员专注于业务逻辑实现。MapReduce特点优点:易于编程,可扩展性,高容错性,高吞
原创
发布博客 2020.07.01 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

zookeeper,hbase,hive配置搭建。

一.ZooKeeper进入zookeeper文件夹下,配置全局环境变量: vi /etc/profile,在打开的文件中添加如下两行:export ZK_HOME=/opt/zookeeperexport PATH=$PATH:$ZK_HOME/bin输入: source /etc/profile,使其生效输入: cd /opt/zookeeper/conf/进入配置文件的目录创建该文件: vi zoo.cfg插入内容:# The number of milliseconds of eac
原创
发布博客 2020.06.28 ·
357 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多