G5Lorenzo
码龄8年
关注
提问 私信
  • 博客:376,989
    社区:1
    376,990
    总访问量
  • 129
    原创
  • 50,905
    排名
  • 57
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2016-11-26
博客简介:

Lorenzo's Oil

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    352
    当月
    3
个人成就
  • 获得215次点赞
  • 内容获得14次评论
  • 获得536次收藏
  • 代码片获得1,687次分享
创作历程
  • 3篇
    2024年
  • 3篇
    2021年
  • 60篇
    2020年
  • 74篇
    2019年
成就勋章
TA的专栏
  • Hive
    4篇
  • Hadoop
    4篇
  • Scala
    1篇
  • 数据库
    1篇
  • Flume
    2篇
  • 数据仓库
    2篇
  • SpringBoot
    1篇
  • 深度学习框架
  • Tensorflow&Keras
    11篇
  • Pytorch
    28篇
  • 计算机视觉
  • 目标检测
    7篇
  • OpenCV
    22篇
  • 论文笔记
    14篇
  • Linux
    8篇
  • Python
    16篇
  • Latex&Markdown
    5篇
  • 面试题
    10篇
  • 算法
    2篇
  • 数学
    1篇
兴趣领域 设置
  • 人工智能
    opencvcaffetensorflowpytorchscikit-learn集成学习
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

SQL题——中位数相关问题

如果解压这个 Numbers 表,可以得到 [0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 3] ,所以中位数是 (0 + 0) / 2 = 0。编写解决方案,找出在 所有 测验中都处于中游的学生 (student_id, student_name)。不要返回从来没有参加过测验的学生。成绩处于中游的学生是指至少参加了一次测验, 且得分既不是最高分也不是最低分的学生。(exam_id, student_id) 是该表主键(具有唯一值的列的组合)。id 是该表的主键列(具有唯一值的列)。
原创
发布博客 2024.06.13 ·
960 阅读 ·
10 点赞 ·
0 评论 ·
5 收藏

SQL-窗口函数合集

MySQL 开窗函数(Window Functions)是 MySQL 8.0 版本引入的一个强大特性,它可以用于计算聚合的同时提供数据行的上下文信息。聚合开窗函数:SUM(), AVG(), MIN(), MAX()。排名开窗函数:ROW_NUMBER(), RANK(), DENSE_RANK(), PERCENT_RANK()。首尾开窗函数:LEAD(), LAG(),LAST_VALUE(),FIRST_VALUE(),NTH_VALUE()。
原创
发布博客 2024.06.12 ·
632 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

SQL题——连续问题

编写解决方案找出 2019-01-01 到 2019-12-31 期间任务连续同状态 period_state 的起止日期(start_date 和 end_date)。结果忽略了 2018 年的记录,因为我们只关心从 2019-01-01 到 2019-12-31 的记录。从 2019-01-01 到 2019-01-03 所有任务成功,系统状态为 “succeeded”。从 2019-01-06 到 2019-01-06 所有任务成功,系统状态为 “succeeded”。任务的状态可以是失败或是成功。
原创
发布博客 2024.06.11 ·
863 阅读 ·
19 点赞 ·
0 评论 ·
13 收藏

子查询作为数据源时需要表别名

问题描述insert overwrite table tmp partition(dt='${DT}',hour='{HOUR}')select * from (select a,b,c,dfrom t1where dt='${DT}' and hour='{HOUR}'union allselect a,b,'NULL' c,dfrom t2where dt='${DT}' and hour='{HOUR}'union all select a,b,c,dfrom t3where
原创
发布博客 2021.04.21 ·
1117 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop 解har归档文件

hive 解har归档文件1.问题描述同步数据的时候,发现有一天的数据查不到,也查不到分区信息,重新同步这一天的数据发现一直执行失败,后面查看hdfs上的实际存储文件发现该天的数据被归档了,归档文件同步过来了,但是msck repair table 命令没法将归档文件中的分区数据信息更新到metastore2.解决办法分区数据存在于归档文件中,那么直接将归档文件中的分区数据拷到当前分区路径下就OK了hadoop fs -cp har://scheme-hostname:port/hive/ware
原创
发布博客 2021.04.16 ·
1095 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive msck repair table 报错

hive msck repair table 报错1.问题描述msck repair table 库名.表名;报错:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask2.解决办法set hive.msck.path.validation=ignore;先使用上述命令后,再执行:msck repair table 库名.表名;...
原创
发布博客 2021.04.16 ·
3577 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

Scala伴生对象

https://www.cnblogs.com/chorm590/p/scala_201904221054.html
转载
发布博客 2020.07.09 ·
164 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

sql where 1=1

https://blog.csdn.net/zc474235918/article/details/50544484
转载
发布博客 2020.07.05 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS小文件优化方法

1.HDFS小文件弊端HDFS上每个文件都要在NameNode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用NameNode的内存空间,另一方面就是索引文件过大使得索引速度变慢。2.HDFS小文件解决方案小文件的优化无非以下几种方式:(1)在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS。(2)在业务处理之前,在HDFS上使用MapReduce程序对小文件进行合并。(3)在MapReduce处理时,可采用Comb
原创
发布博客 2020.06.20 ·
779 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Shuffle机制及优化

1. Shuffle机制Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。Shuffle阶段主要做的事情:map方法处理后得到的一系列新的key/value会先经过Partioner的分区方法,标记分区,然后进入环形缓冲区在环形缓冲区中进行分区和排序,环形缓冲区左侧写数据,右侧写索引环形缓冲区默认100m,默认到达80%时溢写,溢写前对数据的key的索引按照字典序,进行快速排序对溢写的文件进行归并排序,然后将结果放到相应的分区再进行排序,最后等待Reduce端拉取数据
原创
发布博客 2020.06.20 ·
463 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop集群搭建过程及配置文件总结

1. 配置文件总结总共8个配置文件,4个site的xml文件,3个环境脚本,1个slaves4个site文件:hdfs-site.xml,yarn-site.xml,mapred-site.xml,core-site.xml3个环境脚本:hadoop-env.sh,yarn-env.sh,mapred-env.sh1个slaves:slaves2. 完全分布式运行模式的集群搭建过程虚拟机配置硬盘50G 内存4G cpu 62 22/boot 200M/swap 2G/ 全部
原创
发布博客 2020.06.20 ·
973 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Hadoop的常用端口号

Hadoop的常用端口号50070:namenode的web浏览器访问端口号50090:secondary namenode的web浏览器访问端口号50010:datanode的web浏览器访问端口号,用于数据传输8088:resource manager的web浏览器访问端口号19888:jobhistory server的web浏览器访问端口号8020 或者9000:fs.defaultFS接收Client连接的RPC端口,用于获取文件系统metadata信息8
原创
发布博客 2020.06.20 ·
2618 阅读 ·
1 点赞 ·
0 评论 ·
9 收藏

awk命令

awk '{[pattern] action}' {filenames} # 行匹配语句 awk '' 只能用单引号# 每行按空格或TAB分割,输出文本中的1、4项 $ awk '{print $1,$4}' log.txt
原创
发布博客 2020.06.17 ·
670 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

grep -v grep

grep -v xxx-v 选项用来实现反选匹配的( invert match)。如,可匹配得到除下指定xxx外的行grep -v grep除去 grep本身进程的信息
原创
发布博客 2020.06.17 ·
211 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flume自定义拦截器

flume自定义拦截器的步骤定义一个类实现Interceptor接口实现四个方法:initialize、close、Event intercept、List intercept创建一个静态内部类创建静态内部类的意义:我们自定义的拦截器这个类,没有办法直接new,而是在flume的配置文件中进行配置,通过配置文件调用静态内部类,来间接地调用自定义的拦截器对象。示例:public class LogETLInterceptor implements Interceptor{ @O
原创
发布博客 2020.06.17 ·
353 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Kafka Channel的parseAsFlumeEvent

Kafka Channel的parseAsFlumeEvent的默认值为true,即会为对source来的数据进行解析,解析完会对数据前加前缀,前缀为topic名,因此这种情况,下游会需要做额外的截取工作,所以,当不需要前缀名时,将该属性设置为false...
原创
发布博客 2020.06.17 ·
1357 阅读 ·
3 点赞 ·
0 评论 ·
2 收藏

面试题——数仓项目技术如何选型?

技术选型:要提供两套方案,红色的一套,黑色的一套,提供对比选择的依据:优先选择红色的那一套,因为比较通用,而且熟悉Flume解决日志的采集,Kafka解决消息的分发和消峰,Sqoop用于HDFS和关系型数据库进行数据的传递MySql主要用于查询,它用于存储与前端进程交互比较频繁的数据,因为查询要速度比较块,HDFS主要用于存储,用于存储计算和分析的数据量大的数据Hive是底层是基于MR,速度慢,Tez基于内存,数据在计算过程中不落盘,都存储在内存中,速度快,Spark同理Presto和Imp.
原创
发布博客 2020.06.16 ·
467 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

面试题——数据仓库的输入输出是什么

你们的数仓的数仓的数据来源是哪些?数据的目的地又有哪些?数据来源: 日志采集系统、业务系统数据库、爬虫系统、财务系统、OA系统等日志采集系统:采集用户在网站的停留时间,搜索的关键字以及喜好,数据存在file日志文件中,数据量可以很大业务系统数据库:比如电商网站的一些主要的业务数据,支付数据,订单数据等,存在mysql等数据库中,数据量有限爬虫系统:爬取的其他企业的一些商品信息数据数据目的地:报表系统(最基本的数据输出),用户画像,推荐系统,机器学习,风控系统等...
原创
发布博客 2020.06.16 ·
828 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

机器学习知识点复习

机器学习知识点复习1. 线性回归1.1 什么是线性回归?回归算法是一种有监督学习算法,用于构建一个算法模型(函数)来表示特征(自变量X)与标签(因变量Y)之间的映射关系,当X与Y之间为线性相关时,称其为线性回归模型,其表达式如下:y^=wx+b\hat y=wx+by^​=wx+b线性回归通过不断从数据集中学习参数w和b,最终得到一个最优的模型,使得预测值 y^\hat yy^​ 与真实值 yyy 尽可能的接近。1.2 线性回归的求解方法1.2.1 最小二乘法求解参数w和b使得损失函数最小化
原创
发布博客 2020.06.03 ·
2238 阅读 ·
9 点赞 ·
1 评论 ·
78 收藏

HiveJDBC访问——hiveserver2和beeline启动和关闭

HiveJDBC访问——hiveserver2和beeline启动和关闭一、步骤:1.先在一个会话中启动hiveserver2服务[LORENZO@hadoop102 hive]$ bin/hiveserver22.再在另一个会话中启动beeline[LORENZO@hadoop1 hive]$ bin/beelineBeeline version 1.2.1 by Apache H...
原创
发布博客 2020.04.12 ·
3629 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏
加载更多