- 博客(18)
- 收藏
- 关注
转载 一个小时学会 MySQL 数据库
随着移动互联网的结束与人工智能的到来大数据变成越来越重要,下一个成功者应该是拥有海量数据的,数据与数据库你应该知道。一、数据库概要数据库(Database)是存储与管理数据的软件系统,就像一个存入数据的物流仓库。在商业领域,信息就意味着商机,取得信息的一个非常重要的途径就是对数据进行分析处理,这就催生了各种专业的数据管理软件,数据库就是其中的一种。当然,数据库管理系统也不是一...
2019-06-02 14:49:00 1465
转载 hadoop是什么?新手自学hadoop教程【附】大数据系统学习教程
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是一个专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管...
2019-06-01 23:09:00 348
转载 大数据面试题分析
最近学习了hashtable的一点知识,发现可以用来解决大数据的一些问题。我们这里讲的大数据分析事实上并不是分布式和数据挖掘这些高深的概念,而是针对从从一个大文件或者一堆数据(内存放不下)中找出具有某种特点的数,这也是近年来各大公司经常考的问题。面试题1:给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址?解析:100G的...
2019-05-31 12:42:00 147
转载 入职阿里巴巴数据分析师,我用了快1年时间
作为一名热爱数据分析、通过努力拿到心仪offer的学生,是许许多多通过努力实现目标的学生中的普通一员。一路走来,我把自己的经历按照时间线写下来,中间穿插我的经验,在记录自己工作的同时,希望能给想要进入数据分析师岗位的学弟学妹们一点点的小收获。一、本科4年,初识数学建模,爱上统计从小就特别喜欢数学,高考146,大一时特别顺理成章的参加了数学建模的校内比赛,接着一直到大三,参加各...
2019-05-29 16:48:00 965
转载 SpringBoot配置属性二
server配置server.address指定server绑定的地址server.compression.enabled是否开启压缩,默认为false.server.compression.excluded-user-agents指定不压缩的user-agent,多个以逗号分隔,默认值为:text/html,text/xml,text/pla...
2019-05-28 21:34:00 166
转载 大数据学习路线,0基础小白怎么学习大数据?
大数据的领域非常广泛,往往使想要开始学习大数据及相关技术的人望而生畏。大数据技术的种类众多,这同样使得初学者难以选择从何处下手。科多大数据希望能为你开始学习大数据的征程提供帮助,以及在大数据产业领域找到工作指明道路。一、大数据技术基础1、linux操作基础· linux系统简介与安装· linux常用命令–文件操作· linux常用命令–用户管理与...
2019-05-28 21:31:00 190
转载 此文献给正打算入门大数据的朋友:大数据学习笔记1000条(2)
501、MapReduce计算框架中的输入和输出的基本数据结构是键-值对。502、Hadoop神奇的一部分在于sort和shuffle过程。503、Hive驱动计算的“语言”是一XML形式编码的。504、Hive通过和Jobtracker通信来初始化MapReduce任务(Job)。505、Metastore(元数据存储)是一个独立的关系型数据库。 很多初学者,对大...
2019-05-27 23:33:00 319
转载 零基础大数据学习路线指南,做个不秃头的大数据工程师!
要说当下IT行业什么最火?ABC无出其右。所谓ABC者,AI + Big Data + Cloud也,即人工智能、大数据和云计算(云平台)。每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向。二,大数据里面的角色角色一:大数据工程大数据工程需要解决数据的定义、收集、计算与保存的工作,因此大数据工程师们在...
2019-05-24 14:16:00 192
转载 小白入门AI教程:教你快速搭建大数据平台『Hadoop+Spark』
Apache Spark 简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HD...
2019-05-23 23:02:00 211
转载 如何自学人工智能?
欢迎关注作者:大数据教程,AI教程、学习资源、论文解读,你想看的都在这里!最近不少同学跃跃欲试,想投入 AI 的怀抱,但苦于不知如何下手。其中,人工智能的核心就是机器学习(Machine Learning),它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。我们今天就来分享一篇来自 EliteDataScience 上专门讲给机...
2019-05-23 15:38:00 215
转载 如何学习大数据?阿里大数据开发师分享学习知识
想要都进入大数据行业的第一步,是先搞清楚大数据究竟有哪些就业方向。大数据就业岗位随着大数据技术在企业界如火如荼的实践,企业对组建大数据团队的迫切程度也也来越高,对与大数据相关高端人才的需求也越来越紧迫,但企业对大数据团队的组建和角色分配方面缺一直有不小的困惑,到底大数据团队里应该拥有哪些几类角色,如何设置岗位?同一类别的角色的专业方向又有哪些分化,不同专业的岗位对技能应该有哪...
2019-05-23 14:34:00 232
转载 为什么85%的大数据项目总是失败?
企业在推行大数据项目时往往把项目规模和范围做得很大,但是事实却是,很多大数据项目通常都会失败。2016年,Gartner估算约60%的大数据项目都会失败。一年后,Gartner分析师Nick Heudecker表示,这个数据“过于保守”,大数据项目失败率应接近85%。直至现在他也是这样认为的。并不只有Gartner这样认为。前微软高管Bob Muglia告诉分析网站Datanami,...
2019-05-23 14:26:00 140
转载 写给大数据开发初学者的话 | 附教程
导读:第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习经常有初学者在博客和QQ问我,自己想往大数据方向发展...
2019-05-23 00:02:00 137
转载 Redis内核原理及读写一致企业级架构深入剖析1-综合组件环境实战
1 Redis 工作模型redis实际上是个单线程工作模型,其拥有较多的数据结构,并支持丰富的数据操作,redis目前是原生支持cluster模式。如果需要缓存能够支持更复杂的结构和操作,基于以上原因,选择线上使用Redis会是不错的选择。1.1 Redis 高效的原因:Redis高效的原因:1)纯内存操作2)核心是基于非阻塞的IO多路复用机制3)单线...
2019-05-22 14:27:00 117
转载 从技术 Leader 的招聘需求看,如何转岗为当前紧缺的大数据相关人才?
前段时间,跟候选人聊天的时候,一个有多年工作经验的资深 iOS 工程师告诉我,他最近正在学习 Machine Learning 相关的知识。他觉得,对于程序员来说,技术进步大大超过世人的想象,如果你不跟随时代进步,就会落后于时代。我其实已经听过很多人跟我说过类似的话。只不过不同人嘴里提到的词汇各有不同——大数据、数据挖掘、机器学习、人工智能…… 这些当前火热的概念各有不同,又有交叉,...
2019-05-22 11:18:00 250
转载 【T-BABY 夜谈大数据】基于内容的推荐算法
这个系列主要也是自己最近在研究大数据方向,所以边研究、开发也边整理相关的资料。网上的资料经常是碎片式的,如果要完整的看完可能需要同时看好几篇文章,所以我希望有兴趣的人能够更轻松和快速地学习相关的知识。我会尽可能用简单的方式去简介一些概念和算法,尽可能让没有工科基础的人也能大致了解。简单讲解基于内容的推荐算法是非常常见的推荐引擎算法。这种算法常用于根据用户的行为历史信息,如评价...
2019-05-21 21:53:00 190
转载 Mysql 到 Hbase 数据如何实时同步,强大的 Streamsets 告诉你
很多情况大数据集群需要获取业务数据,用于分析。通常有两种方式:业务直接或间接写入的方式业务的关系型数据库同步到大数据集群的方式第一种可以是在业务中编写代码,将觉得需要发送的数据发送到消息队列,最终落地到大数据集群。第二种则是通过数据同步的方式,将关系型数据同步到大数据集群,可以是存储在 hdfs 上,使用 hive 进行分析,或者是直接存储到 hbase 中。...
2019-05-20 13:35:00 366
转载 最简大数据Spark-2.1.0
0.0 前言本文主要基于最新的Spark 2.1.0版本。阅读本文可以对Spark 2.1.0的学习过程,运行流程,关键组件,原理有所了解。文章有点长,你也可以直接阅读感兴趣的部分,但是还是建议全面了解。1.0 简介Spark是Apache软件基金会下的分布式系统开源项目。在官网中这样概况这个项目Apache Spark is a fast and gener...
2019-05-20 12:00:00 127
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人