
大数据集锦
文章平均质量分 84
硬核学习资料、面试知识集锦、开发经验、调优策略
不吃西红柿丶
CSDN内容合伙人、信息技术智库公号作者、华为HDZ成员、《Python爬虫入门到开发实战》作者。深受全网30万粉丝不爱的技术博主,交流合作私信+。目前就职于Apple,欢迎技术交流。
展开
-
SQL 为什么动不动就 N 百行以 K 计
发明 SQL 的初衷之一显然是为了降低人们实施数据查询计算的难度。SQL 中用了不少类英语的词汇和语法,这是希望非技术人员也能掌握。确实,简单的 SQL 可以当作英语阅读,即使没有程序设计经验的人也能运用。原创 2022-10-19 21:33:00 · 12430 阅读 · 79 评论 -
抓住金三银四的尾巴,解锁程序员面试《刷题神器》
1、算法篇(398题):面试必刷100题、算法入门、面试高频榜单;2、SQL篇(82题):快速入门、SQL必知必会、SQL进阶挑战、面试真题。原创 2022-05-20 21:56:38 · 6763 阅读 · 50 评论 -
一旦上云,欲罢不能,带大家薅一薅“云羊毛”
一旦上云,欲罢不能。相对于传统服务器,云服务器因为不需要去拉网线、搭机房、交电费等等问题,云服务器提供商往往会提供一整套完整的解决方案,帮助企业和个人用户,快速实现业务部署。原创 2021-11-26 17:31:14 · 10365 阅读 · 17 评论 -
埋点技术:“呵呵,你在网上的一举一动,都在我眼皮子底下”
埋点为优化产品和运营决策提供数据支撑,几乎每个企业、每个app都需要用到埋点技术。原创 2021-11-22 08:30:00 · 4743 阅读 · 18 评论 -
每日一道题,划水有意义,看我不卷死你们(评论送书)
一个人可能走得很快,但一群人会走得更远!原创 2021-11-12 11:47:07 · 5053 阅读 · 74 评论 -
5万成员丨CSDN 大数据领域网红社区!
一、社区愿景我的梦想很大,大到致力于打造大数据领域第一社区,赋能中国技术社区蓬勃发展。我的“格局”很小,小到每一篇优质文章,都会不吝啬加精,置顶。原创 2021-10-26 15:15:29 · 7335 阅读 · 12 评论 -
我不藏了:7个技术体系、共100篇文章、总计1OO万字
???? 作者主页:不吃西红柿???? 简介:CSDN博客专家 & 总榜前十????、HDZ核心组成员。欢迎点赞、收藏、评论???? 粉丝专属福利:知识体系、面试题库、技术互助、简历模板。文末公众号领取???? 包邮送书(每周1-2次):关注公众号「信息技术智库」回复「送书」添加公众号「信息技术智库」:???? 硬核资料:20G,8大类资料,关注即可领取(PPT模板、简历模板、技术资料)???? 技术互助:技术群大佬指点迷津,你的问题可能不是问题,原创 2021-10-24 12:27:19 · 11950 阅读 · 1 评论 -
刚入职场的菜鸟,这些大数据知识点,你必须掌握了!
???? 作者主页:不吃西红柿???? 简介:CSDN博客专家、C站总榜第8????、HDZ核心组成员。欢迎点赞、收藏、评论???? 粉丝专属福利:知识体系、面试题库、技术互助、简历模板。文末公众号领取一、Hadoop入门1、常用端口号hadoop3.x HDFS NameNode 内部通常端口:8020/9000/9820 HDFS NameNode 对用户的查询端口:9870 Yarn查看任务运行情况的:8088 历史服务器:19888原创 2021-10-24 08:00:00 · 4461 阅读 · 32 评论 -
给你的Linux把把脉(内存、磁盘、CPU、网络)
学会查看linux各种状态,包括:网络IO、磁盘、CPU、内存等;原创 2021-09-29 14:28:14 · 364665 阅读 · 630 评论 -
❤ CSDN榜一博主,半年文章汇总【答谢粉丝、文末送书4本】❤
简历模板、PPT模板、学习资料、面试题库。直接去文末领取原创 2021-09-22 12:59:51 · 13416 阅读 · 194 评论 -
❤️ 爆肝三万字《数据仓库体系》轻松拿下字节offer ❤️【建议收藏】
尤其适合大学生 和 初级程序员掌握的体系内容,资深程序员也可夯实基础原创 2021-09-12 08:18:33 · 31608 阅读 · 97 评论 -
❤️ 给你的Linux把把脉(内存、磁盘、CPU、网络)❤️
简历模板、职场PPT模板、技术难题交流、面试套路尽管【关注】私聊我原创 2021-09-07 11:42:34 · 8200 阅读 · 3 评论 -
❤️ 炒 股 实 战丨原 地 起 飞 ❤️
数据采集,数据预处理,利用SVM算法进行建模原创 2021-08-29 09:00:07 · 17076 阅读 · 141 评论 -
❤️ 6个Python办公黑科技,工作效率提升100倍!HR小姐姐都馋哭了(附代码)❤️
一、解析PDF(简历内推);二、发送邮件;三、操作execl;四、画图分析;五、解析word(docx、doc);六、计算器原创 2021-08-25 08:17:35 · 16427 阅读 · 298 评论 -
❤️爆肝新一代大数据存储宠儿,梳理了2万字 “超硬核” 文章!❤️
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。原创 2021-08-18 15:50:23 · 14319 阅读 · 97 评论 -
❤️❤️❤️【资料免费领取】简历模板、职场PPT模板、硬核学习资料+PDF资料(Java、Python、大数据、机器学习)❤️❤️❤️
【资料免费领取】简历模板、职场PPT模板、硬核学习资料+PDF资料(Java、Python、大数据、机器学习)原创 2021-08-11 14:41:40 · 19901 阅读 · 15 评论 -
❤『知识集锦』一文搞懂mysql索引!!(建议收藏)
1、创建索引的几种方式;2、mysql索引知识;3、mysql索引优化;原创 2021-07-20 12:23:51 · 13499 阅读 · 48 评论 -
『面试知识集锦100篇』2.linux篇丨shell基础命令全集,我奶奶的速查手册!!
『面试知识集锦』系列课程包括以下20+个章节,超过100+篇文章,每篇文章的前半部分为「知识点」帮助你打牢基础,后半部分为「面试真题」帮助你拿下面试。原创 2021-07-13 14:58:18 · 8831 阅读 · 40 评论 -
为了帮粉丝完成毕业设计,我发现了一款私活神器
在mac自建一套【学员管理系统】原创 2021-07-05 13:30:15 · 42570 阅读 · 851 评论 -
23篇大数据系列(三)sql基础知识(史上最全,建议收藏)
作者简介蓝桥签约作者、大数据&Python领域优质创作者。维护多个大数据技术群,帮助大学生就业和初级程序员解决工作难题。我的使命与愿景:持续稳定输出,赋能中国技术社区蓬勃发展!免费下载海量【PPT模板、简历模板、学习资料】:https://blog.csdn.net/weixin_39032019/article/details/118088462大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现,你将收获:❖提升自信心,自如应对面试,顺利拿到实习岗位或.原创 2021-06-26 19:30:48 · 12146 阅读 · 130 评论 -
❤ 想知道大厂面试都问什么吗,附最强面试技巧!!(大数据开发岗)❤
1、沟通技巧1)引导式聊天2)自信的表达3)不要暴露缺点2、充足且针对性的知识储备1)技术框架部分2)项目部分3)算法部分4)HR部分原创 2021-06-26 19:07:35 · 8438 阅读 · 20 评论 -
23篇大数据系列(三)sql基础知识(史上最全,建议收藏)
❤ 免费下载海量【PPT模板、简历模板、学习资料】❤ 大数据系列文章,从技术能力、业务基础、分析思维三大板块来呈现原创 2021-06-22 12:10:02 · 6852 阅读 · 25 评论 -
【粉丝福利、免费领取】:1000套PPT模板、100份简历模板、硬核学习资料+PDF资料(java、python、大数据、机器学习)
目录1、1000套精品PPT模板2、100套小编购买的简历模板3、python学习全集4、大数据-行业资料5、数据仓库项目实战6、机器学习&推荐系统7、大数据-学习资料【下载方法】关注公众号【大数据club】 > 点击【资料下载】1、1000套精品PPT模板2、100套小编购买的简历模板3、python学习全集4、大数据-行业资料5、数据仓库项目实战...原创 2021-06-21 16:40:30 · 8269 阅读 · 16 评论 -
23篇大数据系列(二)scala基础知识全集(史上最全,建议收藏)
第1部分:scala特性。主要讲解面向对象特性、函数式编程、静态类型、扩展性和并发性。第2部分:表达式。在scala中一切皆为表达式,理解表达式是理解其语法的前提。第3部分:方法与函数。主要讲两者之间的区别和转换。第4部分:模式匹配。讲解常用的几种模式,并举例说明。第5部分:scala trait。讲解特质的基本特性和示例。第6部分:集合操作。主要针对常用集合和集合函数的讲解和介绍。第7部分:读取数据源。只针对scala如何通过Source类读取数据源进行简单介绍。第8部分:隐式原创 2021-06-19 19:20:01 · 9992 阅读 · 35 评论 -
23篇大数据系列(一)java基础知识全集(2万字干货,建议收藏)
大数据时代已经到来最近几十年,高速发展的互联网,渗透进了我们生活的方方面面,整个人类社会都已经被互联网连接为一体。身处互联网之中,我们无时无刻不在产生大量数据,如浏览商品的记录、成交订单记录、观看视频的数据、浏览过的网页、搜索过的关键词、点击过的广告、朋友圈的自拍和状态等。这些数据,既是我们行为留下的痕迹,同时也是描述我们自身最佳的证据。2014年3月,马云曾经在北京的一次演讲中说道:“人类正从IT时代走向DT时代”。5年过去了,正如马云预想的那样,大数据时代已经到来了。...原创 2021-06-17 18:53:45 · 9892 阅读 · 35 评论 -
建议收藏丨sql行转列的一千种写法!!
求点赞、求评论、求收藏!!原创 2021-06-04 21:30:14 · 20507 阅读 · 35 评论 -
建议收藏丨大数据集群常用监控命令(内存、磁盘、CPU、网络)
① 学会查看linux各种状态,包括:网络IO、磁盘、CPU、内存等; ② 学会理解命令所代表的含义,能够迅速发现集群存在的问题。原创 2021-05-31 14:23:35 · 17903 阅读 · 59 评论 -
阿里、字节offer收割系列:数据仓库岗(面试真题,建议收藏)
offer收割系列介绍:1、分享桥哥本人或小伙伴在面试大厂时遇到的真题,并给出参考答案!!如果能帮到大家,点赞、收藏、评论是对我最大的支持!!2、涉及岗位:主要为大数据开发、数据仓库(桥哥干过的),其它岗位也可参考3、涵盖技术:mysql、hadoop、hive、Spark、Flink、Kudu、Impala等...原创 2021-05-26 10:50:33 · 8390 阅读 · 51 评论 -
一篇文章搞定一个大数据组件:kudu知识点全集
目录1、kudu的定位2、kudu基本概念3、存储架构3.1 储存架构:Tablet3.2 储存架构:RowSets3.3 储存架构:DiskRowSets4、kudu工作原理4.1 Compaction4.2 Tablet切分规则4.3 kudu写过程:insert4.4 kudu写过程:update4.5 Kudu读过程原创 2021-05-14 18:47:27 · 8373 阅读 · 28 评论 -
hive 参数设置大全
合理设置参数,让集群飞起来~原创 2020-12-29 14:52:25 · 9922 阅读 · 16 评论 -
大数据技术Hbase 和 Hive 详解
Hive帮助熟悉SQL的人运行MapReduce任务。因为它是JDBC兼容的,同时,它也能够和现存的SQL工具整合在一起。HBase通过存储key/value来工作。它支持四种主要的操作。转载 2020-12-03 16:29:38 · 9717 阅读 · 1 评论 -
kudu参数优化设置,让集群飞起来~
根据数据体量,结合集群各节点的CPU、内存、磁盘的表现,合理优化设置kudu参数,让集群飞起来~ !!!!原创 2020-12-03 16:05:23 · 12761 阅读 · 2 评论 -
hive函数大全:11大类、109个函数
目录一、关系运算1. 等值比较: =2. 不等值比较: <>3.小于比较: <4. 小于等于比较: <=5. 大于比较: >6. 大于等于比较: >=7. 空值判断: IS NULL8. 非空判断: IS NOTNULL9. LIKE比较: LIKE10. JAVA的LIKE操作: RLIKE11. REGEXP操作: REGEXP二、数学运算1. 加法操作: +2. 减法操作: -3. 乘法操作: *.原创 2020-11-30 10:18:08 · 10535 阅读 · 5 评论 -
两种列式存储格式:Parquet和ORC
背景随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Presto等,同时也产生了多个高性能的列式存储格式,例如RCFile、ORC、Parquet等,本文主要从实现的角度上对比分析ORC和Parquet两种典型的列存格式,并对它们做了相应的对比测试。列式存储由于OLAP查询的特转载 2020-09-07 17:58:26 · 11755 阅读 · 1 评论 -
spark-submit 参数设置
在使用spark时,根据集群资源情况和任务数据量等,合理设置参数,包括但不限于以下:参数 说明 master yarn E-MapReduce 使用 Yarn 的模式 yarn-client:等同于 –-master yarn —deploy-mode client, 此时不需要指定deploy-mode。 yarn-cluster:等同于 –-master yar...原创 2019-12-03 17:05:02 · 12064 阅读 · 2 评论 -
Hive小文件问题:如何产生、造成影响、解放办法
一、小文件是如何产生的1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。二、小文件问题的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。2.在HD...转载 2019-06-18 15:25:42 · 10322 阅读 · 2 评论 -
Hbase rowkey设计原则,热点问题
唯一性:类似于MySQL、Oracle中的主键,用于标示唯一的行;随机性:有效解决hbase热点问题,避免大量客户端只访问一个或几个节点;长度设计:越短越好,8字节的整数倍利用了操作系统的最佳特性。如太长会影响HFile的存储效率;且MemStore将缓存部分数据到内存,内存的有效利用率会降低,检索效率低。原创 2019-04-19 17:02:02 · 28852 阅读 · 4 评论 -
大数据生态圈常用组件(二):概括介绍、功能特性、适用场景
三更灯火五更鸡,正是男儿读书时。分类 名称 简介 功能特点 使用场景 大数据存储 HDFS HDFS是一个分布式的文件系统,它具有高度的容错,高吞吐量,弹性伸缩等优点。是高度容错性和高吞吐量的海量数据存储解决方案。 高容错性 HDFS通过多方面保证数据的可靠性,多个副本并且分布到物理位置的不同服务器上,数据校验功能、后台的...原创 2019-04-16 20:51:42 · 33428 阅读 · 15 评论 -
大数据生态圈常用组件(一):数据库、查询引擎、ETL工具、调度工具等
你的闺蜜在减肥,隔壁老王在练腰,你还不赶紧来学习 整理了当年使用过的一些,大数据生态圈组件的特性和使用场景,若有不当之处,请留言斧正,一起学习成长。组件名 属性标签 特性 使用场景 价格成本 Mysql 关系型数据库,行式存储,支持sql 轻量级数据分析,存储 hive的元数据,kettle的资源库,web 应用后台库。 社区版和商业...原创 2019-04-16 20:28:26 · 35060 阅读 · 18 评论