自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(124)
  • 收藏
  • 关注

原创 大数据项目及实现

1,离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。2,流式数据处理:项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网...

2019-05-11 21:39:36 4860

原创 在Hive上构建数据仓库使用的数据模型

现状针对大数据Hadoop体系中,Hive作为数据仓库工具;但是对于大数据中数据仓库上构建数据模型的方法和传统的关系数据库的方法是否还是可以使用。世间万物不会孤立的存在,它们以各种关系进行联系;构建的数据模型如何体现这些关系。从目前各大厂商(IBM,微软)的数据仓库构建方法中,还是保留原来关系型数据仓库(传统的数据仓库)的模式,在Hive中构建各表及其间的关系;尽管在Hive中并不是...

2019-05-11 21:39:34 2926

原创 资源整理 | 36个惊人的Python开源项目,都在这了

全文共2853字,预计学习时长8分钟或更长在构建应用程序时,开源项目非常有用。在比较了近5,000个开源Python项目后,本文整理了过去的一年中,在Github上平均标星数1667的前36个开源项目提供给大家!赶快收藏哟!NO.1(Github标星数:6639)Manim:解释数学视频的动画引擎·Manim是一个可以解释性数学视频的动画引擎。·可以使用Python来创...

2019-05-11 19:21:03 8292

原创 14个Q&A,讲述python与数据科学的“暧昧情事”

全文共3733字,预计学习时长7分钟Python最近火了,大红大紫那种。PYPL(编程语言受欢迎程度) 四月官方榜单宣布,Python荣获NO.1,竟然连朋友圈里的文科生都开始转发Python课程打卡的链接了……这是怎样一个令全民疯狂的语言?作为编程界的“头牌”名媛,Python平易近人的态度和精明婉约的灵动深得各个大佬欢心。比如:人工智能、web开发、爬虫、系统运维、数据分析与计算等等。...

2019-05-11 19:17:18 293

原创 2019学习Python的10个原因

如果你经常关注我,那你可能想知道为什么我要写一篇文章来告诉你们学习Python?但是几年前我曾向你们说过Java比Python更具有优势,哦,这就尴尬了,但确实,这几年情况有所改变,在2016年,Python取代Java成为大学最流行的语言,而且它的发展趋势逐渐飙升,从未回首。【python开发学习资料领取方式】:加入python技术学习交流群250933691,点击加入群聊,私信管理员即...

2019-05-11 19:11:12 308

原创 浅析大数据Hadoop之YARN架构

1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原 Hadoop MapReduce 框架对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下...

2019-05-10 22:11:04 339

原创 Hadoop和大数据:60款顶级开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据...

2019-05-10 22:10:16 245

原创 程序员高薪盛宴背后:未来有哪些程序员会被淘汰?

华为35岁辞退事件...中兴员工坠楼残局...每次听到这样的新闻,很多程序员一面为不幸的同僚扼腕叹息,一面也在暗暗问自己:技术变化那么快,我会不会被淘汰?又或者程序员十年后还会有今天的收入吗?一面是被淘汰一面是生存收入降低,两顾两相难!假如今天的收入代表比较值钱的话,这个问题其实可以换一种等同的问法,即:●程序员十年后还会像现在这么值钱吗?十年这里可以一定程...

2019-05-10 22:10:14 223

原创 大数据开发之路:hive篇

引语大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象”,也就是我们的大数据领域的数据仓库工具hive。这只小象给我们提供了方便类SQL查询语言HQL来操纵数据,使得我们一开始不用编写复杂的代码,就可以轻松的探索数据。Hive对于熟悉传统数据库的同学来说,算是很友好的一个入门工具。原理在大数据生态中,hive一般作为数据...

2019-05-10 22:10:12 569

原创 想学java大数据还不知道这些怎么行?

划重点互联网发展瞬息万变,程序员就是用一行行代码改变世界,设想你做的app被大家喜爱,你做的网站深受大家亲睐的时候,那种成就感自然是不言而喻的。本文达妹就为大家总结在学习IT技术前,程序员不得不掌握的技能,希望对你有帮助:1你能吃苦吗?为什么这么问?很简单,996大家听过吧,这是互联网行业奇葩工作时间。做程序员这行尤其是互联网企业里,加班是常有的事,遇到赶项目或者大事通宵也不是不可能...

2019-05-09 21:59:45 416

原创 学大数据培训纯粹是为了炫技?

学大数据开发纯粹是为了炫技?如果我们一味的追求大数据,炫技,而忽视行业思维的培养,那所学技能会像工具一样让许多人变为工具的奴隶。而真正建立新竞争力的人,是属于能够建立自己知识体系,真正把数据知识融合运用的人。大数据培训的知识学习掌握运用得当将会发挥巨大的能量。目前,互联网公开资源,包括网络公开课等,已经具有很好的学习环境,各类数据人不断在输出技能。相信只要有心,一定能够找到自身发展的特点,...

2019-05-09 21:59:43 397

原创 快速了解kafka的基础架构

今天来聊下在大数据场景下比较流行的消息队列组件kafka。本篇文章将主要从理论角度来介绍。kafka是一款开源、追求高吞吐、实时性,可持久化的流式消息队列,可同时处理在线(消息)与离线应用(业务数据和日志)。在如今火热的大数据时代,得到了广泛的应用。整体架构kafka的消息以Topic进行归类,支持分布式distribution、可分区partition和可复制replicated的特...

2019-05-09 21:59:40 355

原创 大数据、云计算系统顶级架构师课程学习路线图

大数据、云计算系统架构师顶级课程阶段一、大数据、云计算 - Hadoop大数据开发技术课程一、大数据运维之Linux基础本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。 1)Linux系...

2019-05-09 21:59:34 2111

原创 数据同步之大数据下数据仓库的同步方式

数据仓库的特性是集成,把不同数据源、不同形式的数据整合在一起。大数据下的数据特点如下:①数据多样性:包括高度结构化,易于处理的结构化数据以及服务器日志、图片、视频等非结构化数据②数据量:传统的数据仓库每天的同步量在几百GB上下,大型的数据仓库每天达PB级别,甚至EB级别批量数据同步:1)离线的数据线仓库用于负责将不同数据源的数据同步到数据仓库,以及定时将数据同步到业务系统2)要...

2019-05-09 21:59:29 1980 1

原创 程序员努力一月终获2.6万提成,因公司绩效和代码行数挂钩

提起程序员,大家都说是高薪行业,但是说到底其实也是一个打工的,去哪儿都会看工资高低,有的公司是算的固定工资,而有些公司为了激发员工工作的热情,会设置一些考核标准,达到标准的就能拿更多的报酬。而在很多圈外人看来,程序员这个职业就是写代码的,所以代码写的越多证明工作越努力,那么就应该拿更多的报酬。最近某互联网公司就开始实施按代码行数给程序员算工资,结果却被坑了一把:根据网友所说,这家公司的...

2019-05-07 21:59:39 2313

原创 8年京东大数据架构师推荐的大数据开发学习路线

一、我们先要了解大数据的工作方向01.大数据工程师02.数据分析师03.大数据科学家04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)二、大数据工程师的技能要求必须技能10条:01.Java高级(虚拟机、并发)02.Linux 基本操作03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )04.H...

2019-05-07 21:59:35 1399

原创 从金融行业转型大数据,一路学习点滴的分享!

大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。开始我大学学的是软件工程专业,2018 年毕业。据统计,近几年毕业生中平均薪资最高的专业就是软件工程!还好我没有拉低平均水平,凭借自己努力和运气毕业去了一家金融...

2019-05-07 21:59:31 641

原创 Spark+Kafka如何限速的问题

最近太忙了,上一次更新还是半个月前。不过我觉得终究还是要更新一下的,只是这次实在没时间写什么心得体会或是讨论之类的了,就拿在知乎上回答的一个帖子”偷懒“一下好了。这个帖子是在知乎上回答如何为Spark Streaming + Kafka应用限速的。同样的问题在知乎上也碰到过几次,还是具有一定的普遍性的,故我这里直接顺手牵羊了, 省的我无中生有写一些我觉得有用的东西,实际上并不是那么回事。要知道...

2019-05-07 21:59:27 1210

原创 大数据技术概念以及应用领域完全解读

在写这篇大数据文章之前,我发现身边很多IT人对于这些热门的新技术、新趋势往往趋之若鹜却又很难说的透彻,如果你问他大数据是什么,什么是大数据概念?估计很少能说出一二三来。究其原因,一是因为大家对大数据这类新技术有着相同的原始渴求,至少知其然在聊天时不会显得很“土鳖”;二是在工作和生活环境中真正能参与实践大数据的案例实在太少了,所以大家没有必要花时间去知其所以然。我希望有些不一样,所以对该如何去认...

2019-05-07 21:59:25 4508

原创 数据湖和数据仓库的区别是什么?

我们都知道,进行数据分析工作的时候会用到很多的工具,比如说数据湖和数据仓库,不过这两者之间的差异和区别,可能会让人困惑。那么大家知道不知道数据湖和数据仓库的区别是什么呢?下面我们就给大家介绍一下数据湖和数据库的相关知识。那么什么是数据湖呢?其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的开发主要是为...

2019-05-06 21:59:45 21831 4

原创 Hadoop学习笔记

一、Hadoop基础知识:(主要解决海量数据存储和海量数据分析计算)1、Hadoop的优势:1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性...

2019-05-06 21:59:42 841

原创 培训出来的程序员容易被代替吗?

我认识这样一个程序员,他长这样, 我第一次认识他的时候,他告诉我:我是干销售的,卖房子,我觉得这一行太丑陋了,我想学点技术,踏踏实实的挣钱。我说:那你能吃苦吗?他说:我不觉得还有什么苦能比我干房产中介还要苦。 于是他来了。 学的可真费劲。 如果说有十个学生,那么他就是那个倒数第一、第二的那个。往往这样的学生在碰到技术问题的...

2019-05-06 21:59:40 1083 2

原创 大数据的了解和入门级的学习方法

一:大数据的了解大数据(巨量数据集合)是现代社会非常时髦的一个名词。是数据科学的一个高阶状态。数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。催生出了一些与大数据相关的职业,通过对数据的分析挖掘来影响企业的商业决策。国内,大数据的应用处于萌芽状态,人才市场还不太成熟,每家公司对大数据工作的要求不尽相同:有的强调数据...

2019-05-05 21:59:24 782

原创 大数据技术与Apache Hadoop生态的进化

一、什么是大数据对于“大数据”(Big data)研究机构 Gartner 给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。以上的概念体现出了两个关键信息,一个是数据量大,一个是数据形态多样。(1)数据量有多大呢?以百度系统为例,它每天要产生100TB~1PB的日志数据。一般我们电脑的硬盘是1...

2019-05-05 21:59:22 452

原创 大数据的十大流行误区,你中了几个?

技术和科学每天都在观察革命性的进步,企业正在努力从中汲取最大的利益。数据分析是这样一个领域,他们利用大数据和数据科学,将大量数据与业务战略相结合。实际上,大数据对所有企业都有合理的承诺,无论其规模如何。通过大数据分析,企业可以获得洞察力,帮助他们不仅可以增加收入,还可以了解他们的服务和产品中的差距。让我们来看看最常见的大数据误区作为一项不断发展的技术和相对较新的概念,大数据其实存在极少...

2019-05-03 21:45:40 413

原创 漫谈阿里那些大数据技术,大数据学习者必看

目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。  一,DT时代  大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预...

2019-05-01 21:59:20 10449

原创 大数据开发第一步:Hadoop基础学习

目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念大数据的本质一、数据的存储:分布式文件系统(分布式存储)二、数据的计算:分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线(1)Java基础和Linux基础(2)Hadoop的学...

2019-04-27 21:52:51 791

原创 还在为数据清洗抓狂?这里有一个简单实用的清洗代码集

现实世界中的数据通常质量不高,作为一名数据科学家,有时也需要承担一部分数据清洗的工作,这要求数据科学家们应该能够在进行数据分析或建模工作之前执行数据清洗步骤,从而确保数据的质量最佳。不过长话短说,在数据科学领域工作了很长一段时间后,我切实感受到了在进行数据分析、可视化和建模工作之前,进行数据清洗工作是多么痛苦。不管你承不承认,数据清洗着实不是一件简单的任务,大多数情况下这项工作是十分耗时而...

2019-04-26 21:47:34 655

原创 大数据开发之kafka 简介、架构、安装

Kafka 简介kafka 是一个分布式的、可分区的、可复制的消息发布和订阅系统,具有高性能和高吞吐率。kafka 消息队列的特点如下:1.消费者和生产者模式2.FIFO先进进出的有序性3.分布式4.高吞吐率5.消息被处理的状态是在 consumer 端维护的,而不是由 server 进行维护的。所以,失败的时候,还可以自动平衡。理解上面的特点:1.生产者和...

2019-04-25 11:26:24 249

原创 Python的高级特征你知多少?来对比看看

Python多好用不用多说,大家看看自己用的语言就知道了。但是Python隐藏的高级功能你都 get 了吗?本文中,作者列举了Python中五种略高级的特征以及它们的使用方法,快来一探究竟吧!Python 是一种美丽的语言,它简单易用却非常强大。但你真的会用 Python 的所有功能吗?任何编程语言的高级特征通常都是通过大量的使用经验才发现的。比如你在编写一个复杂...

2019-04-24 14:19:11 188

原创 我在微软工作 14 年发现:千万别在你最能拼命的时候,选择了养生

过去,我经常问自己一个问题,如果我可以获得一种超能力,我会选什么?后来,我找到了这个问题的答案,最重要的能力,是获得能力的能力。这个答案就像你去找神灯,神灯问你有什么愿望,你说:我的愿望是再要三个愿望……所以我一直在思考,如何能够快速获得一种能力,因为掌握了获得能力的能力之后,其他能力不就随之而来了嘛!▲有美剧爱好者认识他吗?如果把这个问题更加具像化,就是:如何用两年...

2019-04-23 14:27:09 770

原创 大数据开发一般面试什么内容?

感谢小伙伴们的面试题,刚出炉的,你会吗?第一家大数据开发的面试题:第二家大数据开发的面试题:第三家高级大数据开发的面试题:对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:515269485,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家...

2019-04-22 16:26:56 1718

原创 为什么越来越多的人学习python?

人生苦短,我用Python。与人工智能捆绑在一起的Python,似乎一直不缺的就是热度。2019年1月TIOBE排行榜显示,由于全球流行度在过去一年中涨幅最高(3.62%),Python一举获得了2018年度编程语言的称号。事实上,过去几年间Python一直都被寄予厚望,有人认为它最有望超越Java的地位,成为主流编程语言霸主。(截至2019年3月份,TIOBE的Python编...

2019-04-19 21:11:31 369

原创 【Python经典实战爬虫技术】:爬取拉勾网职位并分析

0. 前言本文从拉勾网爬取深圳市数据分析的职位信息,并以CSV格式保存至电脑,之后进行数据清洗,生成词云,进行描述统计和回归分析,最终得出结论。1. 用到的软件包Python版本: Python3.6requests:下载网页math:向上取整time:暂停进程pandas:数据分析并保存为csv文件matplotlib:画图statsmodels:统计建模...

2019-04-17 13:01:55 763

原创 无需编程基础,Python从入门到进阶大法

本文试图概述Python编程语言的所有关键点,并专注于绝对需要理解的最重要的主题。完全零基础,你不需要具备任何先前的编程知识,并且可以非常快速地掌握所有必需的概念。好,接下来我们开始。1. Python简介Python是一种解释型语言: 这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言Python是交互式语言:你可以在一个Python提示符 >>>...

2019-04-16 19:08:58 403

原创 代码详解|如何快速从硬盘里找到小电影?

看电影还要找豆瓣?别人的喜好怎能左右你的欢心~豆瓣评分不靠谱,关键时刻得自己动手!本文将手把手教你打造一个专属电影机器人,它能根据你的要求来推荐电影。科幻悬疑恐怖还是爱情文艺小清新,统统hold住!本文基于SAPConversationalAI来构建模型,并通过电影数据库来获取电影信息。和简单的Q/A聊天机器人相比,与第三方API交互能实现更多有趣的案例。通过Bot...

2019-04-15 15:55:47 6985

原创 如何为机器学习奠定基础

随着越来越多的组织优先考虑数据质量,并了解理解和应用机器学习的好处,他们将享受更好的决策和降低成本的好处。随着市场竞争的加剧,企业获得收益越来越难,采用机器学习将成为其业务走向成功的途径。机器学习对许多人来说是一种新事物,因为它最近才成为大众市场的可行工具,但其根源却有几十年的历史。机器从数据中学习的概念在20世纪50年代实现。1988年,IBM公司将基于概率的数据算法的原理引入到以前基于...

2019-04-14 18:02:16 254

原创 用Python爬取淘宝1000多商品,只想为老父亲做点事

本文来自我们小密圈的一位非常铁杆的粉丝,这位粉丝看我的文章大概有2年多了,非常朴实的一位铁杆,希望大家耐心看完这篇文章!北靠黄河南靠山,我家住在老潼关。对,就是那个鸡鸣啼三省(秦晋豫)的陕西东大门潼关。就是那个“山河表里潼关路”中的潼关。家有五亩薄田,田地由老父亲打理,前几年当地百姓开始种植『黄花菜』,父亲在家也种了一些。(咱家五亩地)(刚拍的核桃花是不是也很美?)...

2019-04-13 17:05:33 1034

原创 大数据全栈式开发语言 – Python

大数据全栈式开发语言 – Python从各个领域流行语言排名中,我发现Python可以称为大数据全栈式开发语言。因为Python在云基础设施,DevOps,大数据处理等领域都是炙手可热的语言。就像只要会JavaScript就可以写出完整的Web应用,只要会Python,就可以实现一个完整的大数据处理平台。1云基础设施这年头,不支持云平台,不支持海量数据,不支持动态伸缩...

2019-04-12 12:09:30 457

原创 如何在一场面试中展现你对Python的coding能力?

如果你已经通过了招聘人员的电话面试,那么下面正是该展现你代码能力的时候了。无论是练习,作业,还是现场白板面试,这都是你证明自己的代码技巧的时刻。我们知道面试官常常会出一些题让你来解决,作为一名程序员,除了需要具备解决问题的思路以外,代码的质量和简洁性也很关键。因为从一个人的代码可以直接看出你的基本功。对于Python而言,这就意味着你需要对Python的内置功能和库有很深入的了解。本篇...

2019-04-10 21:15:50 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除