qq_40375298
码龄7年
关注
提问 私信
  • 博客:28,320
    28,320
    总访问量
  • 53
    原创
  • 1,801,225
    排名
  • 6
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 目前就职: 开奈
  • 加入CSDN时间: 2017-09-24
博客简介:

qq_40375298的博客

查看详细资料
个人成就
  • 获得3次点赞
  • 内容获得0次评论
  • 获得27次收藏
创作历程
  • 3篇
    2021年
  • 50篇
    2020年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

地表最强系列之浅谈Spark中的 repartition

repartition 源码 /** * Return a new RDD that has exactly numPartitions partitions. * * Can increase or decrease the level of parallelism in this RDD. Internally, this uses * a shuffle to redistribute data. * * If you are decreasing the num
原创
发布博客 2021.03.15 ·
3539 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Hive 分区表 进行动态插入

创建分区表spark.sql( """ |create table mro_ns2_hive_db.tmp_mro_msisdn_njy_xgboots_105_ts_partitions |( |sc_longitude double |,sc_latitude double |,sc_pci double |,sc_freq
原创
发布博客 2021.01.09 ·
382 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark 并行开发

开发前提这里,需要对全杭州经纬度进行xgboost模型的训练预测,需要采用CountDownLatch并行开发.CountDownLatchCountDownLatch介绍代码模板package com.nokia.zjbigdata.open.spark.imporaimport java.util.concurrent.{CountDownLatch, Executors}import ml.dmlc.xgboost4j.scala.spark.{XGBoostRegressionMo
原创
发布博客 2021.01.08 ·
283 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

2020-10-25

第二套请在 HDFS 中创建目录/app/data/exam,并将 answer_question.log 传到该目录[root@lijia1 exam]# hdfs dfs -mkdir /app/data/exam202007[root@lijia1 exam]# hdfs dfs -put ./answer_question.log /app/data/exam202007/scala> val log = sc.textFile(“hdfs://lijia1:9000/app/data
原创
发布博客 2020.10.25 ·
271 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

将json文件转化为DF格式

json文件1593136280858|{"cm":{"ln":"-55.0","sv":"V2.9.6","os":"8.0.4","g":"C6816QZ0@gmail.com","mid":"489","nw":"3G","l":"es","vc":"4","hw":"640*960","ar":"MX","uid":"489","t":"1593123253541","la":"5.2","md":"sumsung-18","vn":"1.3.4","ba":"Sumsung","sr":"I"}
原创
发布博客 2020.10.15 ·
910 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

KNN算法

K-近邻算法(KNN)概述最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象同时与多个训练对象匹配,导致一个训练对象被分到了多个类的问题,基于这些问题呢,就产生了KNN。KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中
原创
发布博客 2020.09.15 ·
420 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

项目三

flume采集部分部署flume客户端监控应用程序产生的日志信息,并发送到kafka集群中test.channels = c1test.sinks = k1test.sources.s1.type = spooldirtest.sources.s1.spoolDir = /opt/kb07file/flumeFile/testtest.sources.s1.deserializer = LINEtest.sources.s1.deserializer.maxLineLength = 6000
原创
发布博客 2020.09.14 ·
88 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

拉链表

user_his表useridusernamephonestart_dateend_date1001zhangsan130666666662020-09-019999-12-311002lisi130555555552020-09-019999-12-311003wangwu130777777772020-09-019999-12-31user_update表useridusernamephone10
原创
发布博客 2020.09.14 ·
122 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

物流项目笔记

数据清洗规则在我们的项目当中, 实际上数据清洗做了2件事, 第一个是按照分析需求进行数据过滤, 去重row_number()去重为什么要用row_number()?在我们去重的时候, 最简单的就是 distinct 弊端: 使用一个reduce进行处理, 效率低下, 生产环境一般不用我们常用的方式是row_number()+where rn=1 和 group by + max()数据清洗, 思考几个问题本地模式/集群模式在项目代码中提供了两种模式, 在运行时只需要通过参数传入, lo
原创
发布博客 2020.09.13 ·
187 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓项目2笔记

在Mysql中生成原始数据在mysql中生成数据source /root/snbap_ods.sql;Hive分层这里的项目Hive分层有:ODS->DWD->DWS->DM(将DW层拆成了DWD,DWDS)DWD(data warehouse detail): 数据明细层DWS(data warehouse service): 数据服务层(轻度的汇总,DWS层一般是跨表的)DM(data market):数据集市层(高度汇总)将Mysql中的数据导入Hive的ODS
原创
发布博客 2020.09.09 ·
250 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

数仓项目笔记

库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)主题一: 销售固有信息: 员工号,顾客号,商品号,数量,单价,日期员工信息: 员工号,姓名,性别,年龄,文化程度,部门号顾客信息: 顾客号,姓名,性别,年龄,文化程度,地址,电话商品信息:
原创
发布博客 2020.09.03 ·
220 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Python函数和正则表达式

自定义函数定义函数def func_name(参数列表): 函数体 [return/yield 函数返回值] Python函数的特点函数参数类型多样允许嵌套函数无需声明函数返回值类型yield可以作为函数返回值的关键字函数能够被赋值给变量Python的函数参数无参函数位置参数关键字参数包裹位置参数包裹关键字参数无参函数def show_log(): print('I am a log')show_log()位置参数传入的参数与定义的
原创
发布博客 2020.08.25 ·
544 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

地表最强系列之Python入门

列表列表的特点用来储存多个数据的数据结构储存的数据是有序的,可使用位置索引列表长度和元素都是可变的可储存不同类型的数据列表的使用方法创建列表:a=[1,2,3,4,5,6,[1,2]]使用索引获取列表中的数据:x[0], x[2], x[-1], x[-3]判断值是否存在于列表中:a=[1,2,3,4,5,6,[1,2]] print(1 in a)元组元组的特点储存形式与列表相似与列表不同的地方:元素不可修改,长度不可改变常用于安全级别较高的场景应用元组的使用方法创建
原创
发布博客 2020.08.25 ·
278 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

清洗Kafka数据的API

public class UserFrienf { public static void main(String[] args) { //Properties类该类主要用于读取Java的配置文件 Properties prop=new Properties(); prop.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.174.41:9092"); prop.put(StreamsConf
原创
发布博客 2020.08.24 ·
171 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

地表最强系列之Spark数据分析及处理

数据样例2018-09-04T20:27:31+08:00 http://datacenter.bdqn.cn/logs/user?actionBegin=1536150451540&actionClient=Mozilla%2F5.0+%28Windows+NT+10.0%3B+WOW64%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F58.0.3029.110+Safari%2F537.36+SE+2.X+MetaSr+1
原创
发布博客 2020.08.21 ·
6489 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

地表最强系列之Spark Streaming

Spark Streaming 是什么?Spark Streaming 是核心 Spark API 的扩展,支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从许多来源获取,如 Kafka、Flume、Kinesis 或 TCP sockets,可以使用复杂的算法处理数据,这些算法用高级函数表示,如 map、reduce、join 和 window。最后,处理后的数据可以推送到文件系统、数据库和活动仪表板。实际上,还可以将 Spark 的 MLlib 机器学习和 GraphX 图形处理算法应用于数据流。
原创
发布博客 2020.08.20 ·
157 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

地表最强系列之Kafka

Kafka的Linux环境搭建kafka_2.11-2.0.0 提取码:yft0 将安装包导入并解压$ tar -zvxf kafka_2.11-0.11.0.2.tgz -C /opt/install启动zookeeper集群zkServer.sh start修改server.properties中内容broker.id=0delete.topic.enable=truelisteners=PLAINTEXT://hadoop101:9092log.dirs=/da
原创
发布博客 2020.08.19 ·
146 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

地鳖最强系列之flume

flume的环境搭建flume-ng-1.6.0-cdh5.14.0.tar.gz 提取码:juak(base) [root@lijia1 install]# tar -zxf flume-ng-1.6.0-cdh5.14.0.tar.gz -C ../bigdata/(base) [root@lijia1 bigdata]# mv apache-flume-1.6.0-cdh5.14.0-bin/ flume160514(base) [root@lijia1 bigdata]# cd ./flu
原创
发布博客 2020.08.16 ·
120 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSQL与Hive的集成

Parquet类型文件Parquet文件:是一种流行的列式存储格式,以二进制存储,文件中包含数据与元数据//TODO 1.创建一个SparkSession 对象 val spark: SparkSession = SparkSession.builder() .master("local[4]").appName("test07") .getOrCreate() //导包 import spark.implicits._ val sc: Spar
原创
发布博客 2020.08.13 ·
174 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

地表最强系列之Spark SQL

Spark SQL架构Spark SQL是Spark的核心组件之一(2014.4 Spark1.0)能够直接访问现存的Hive数据提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理提供了更高层级的接口方便地处理数据支持多种操作方式:SQL、API编程支持多种外部数据源:Parquet、JSON、RDBMS等Spark SQL运行原理Catalyst优化器是Spark SQL的核心,所有 SQL 操作最终都通过 Catalyst 翻译成类似的 Spark 程序代码被 Spa
原创
发布博客 2020.08.12 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多