深度学习
haotian1685
这个作者很懒,什么都没留下…
展开
-
还在为数据清洗抓狂?这里有一个简单实用的清洗代码集
现实世界中的数据通常质量不高,作为一名数据科学家,有时也需要承担一部分数据清洗的工作,这要求数据科学家们应该能够在进行数据分析或建模工作之前执行数据清洗步骤,从而确保数据的质量最佳。不过长话短说,在数据科学领域工作了很长一段时间后,我切实感受到了在进行数据分析、可视化和建模工作之前,进行数据清洗工作是多么痛苦。不管你承不承认,数据清洗着实不是一件简单的任务,大多数情况下这项工作是十分耗时而...原创 2019-04-26 21:47:34 · 672 阅读 · 0 评论 -
程序员努力一月终获2.6万提成,因公司绩效和代码行数挂钩
提起程序员,大家都说是高薪行业,但是说到底其实也是一个打工的,去哪儿都会看工资高低,有的公司是算的固定工资,而有些公司为了激发员工工作的热情,会设置一些考核标准,达到标准的就能拿更多的报酬。而在很多圈外人看来,程序员这个职业就是写代码的,所以代码写的越多证明工作越努力,那么就应该拿更多的报酬。最近某互联网公司就开始实施按代码行数给程序员算工资,结果却被坑了一把:根据网友所说,这家公司的...原创 2019-05-07 21:59:39 · 2366 阅读 · 0 评论 -
Spark+Kafka如何限速的问题
最近太忙了,上一次更新还是半个月前。不过我觉得终究还是要更新一下的,只是这次实在没时间写什么心得体会或是讨论之类的了,就拿在知乎上回答的一个帖子”偷懒“一下好了。这个帖子是在知乎上回答如何为Spark Streaming + Kafka应用限速的。同样的问题在知乎上也碰到过几次,还是具有一定的普遍性的,故我这里直接顺手牵羊了, 省的我无中生有写一些我觉得有用的东西,实际上并不是那么回事。要知道...原创 2019-05-07 21:59:27 · 1255 阅读 · 0 评论 -
从金融行业转型大数据,一路学习点滴的分享!
大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。开始我大学学的是软件工程专业,2018 年毕业。据统计,近几年毕业生中平均薪资最高的专业就是软件工程!还好我没有拉低平均水平,凭借自己努力和运气毕业去了一家金融...原创 2019-05-07 21:59:31 · 657 阅读 · 0 评论 -
8年京东大数据架构师推荐的大数据开发学习路线
一、我们先要了解大数据的工作方向01.大数据工程师02.数据分析师03.大数据科学家04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)二、大数据工程师的技能要求必须技能10条:01.Java高级(虚拟机、并发)02.Linux 基本操作03.Hadoop(此处为侠义概念单指HDFS+MapReduce+Yarn )04.H...原创 2019-05-07 21:59:35 · 1425 阅读 · 0 评论 -
Hadoop和大数据:60款顶级开源工具
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据...原创 2019-05-10 22:10:16 · 259 阅读 · 0 评论 -
大数据开发之路:hive篇
引语大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象”,也就是我们的大数据领域的数据仓库工具hive。这只小象给我们提供了方便类SQL查询语言HQL来操纵数据,使得我们一开始不用编写复杂的代码,就可以轻松的探索数据。Hive对于熟悉传统数据库的同学来说,算是很友好的一个入门工具。原理在大数据生态中,hive一般作为数据...原创 2019-05-10 22:10:12 · 600 阅读 · 0 评论 -
程序员高薪盛宴背后:未来有哪些程序员会被淘汰?
华为35岁辞退事件...中兴员工坠楼残局...每次听到这样的新闻,很多程序员一面为不幸的同僚扼腕叹息,一面也在暗暗问自己:技术变化那么快,我会不会被淘汰?又或者程序员十年后还会有今天的收入吗?一面是被淘汰一面是生存收入降低,两顾两相难!假如今天的收入代表比较值钱的话,这个问题其实可以换一种等同的问法,即:●程序员十年后还会像现在这么值钱吗?十年这里可以一定程...原创 2019-05-10 22:10:14 · 238 阅读 · 0 评论 -
浅析大数据Hadoop之YARN架构
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原 Hadoop MapReduce 框架对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下...原创 2019-05-10 22:11:04 · 385 阅读 · 0 评论 -
在Hive上构建数据仓库使用的数据模型
现状针对大数据Hadoop体系中,Hive作为数据仓库工具;但是对于大数据中数据仓库上构建数据模型的方法和传统的关系数据库的方法是否还是可以使用。世间万物不会孤立的存在,它们以各种关系进行联系;构建的数据模型如何体现这些关系。从目前各大厂商(IBM,微软)的数据仓库构建方法中,还是保留原来关系型数据仓库(传统的数据仓库)的模式,在Hive中构建各表及其间的关系;尽管在Hive中并不是...原创 2019-05-11 21:39:34 · 2962 阅读 · 0 评论 -
想学java大数据还不知道这些怎么行?
划重点互联网发展瞬息万变,程序员就是用一行行代码改变世界,设想你做的app被大家喜爱,你做的网站深受大家亲睐的时候,那种成就感自然是不言而喻的。本文达妹就为大家总结在学习IT技术前,程序员不得不掌握的技能,希望对你有帮助:1你能吃苦吗?为什么这么问?很简单,996大家听过吧,这是互联网行业奇葩工作时间。做程序员这行尤其是互联网企业里,加班是常有的事,遇到赶项目或者大事通宵也不是不可能...原创 2019-05-09 21:59:45 · 428 阅读 · 0 评论 -
快速了解kafka的基础架构
今天来聊下在大数据场景下比较流行的消息队列组件kafka。本篇文章将主要从理论角度来介绍。kafka是一款开源、追求高吞吐、实时性,可持久化的流式消息队列,可同时处理在线(消息)与离线应用(业务数据和日志)。在如今火热的大数据时代,得到了广泛的应用。整体架构kafka的消息以Topic进行归类,支持分布式distribution、可分区partition和可复制replicated的特...原创 2019-05-09 21:59:40 · 369 阅读 · 0 评论 -
数据同步之大数据下数据仓库的同步方式
数据仓库的特性是集成,把不同数据源、不同形式的数据整合在一起。大数据下的数据特点如下:①数据多样性:包括高度结构化,易于处理的结构化数据以及服务器日志、图片、视频等非结构化数据②数据量:传统的数据仓库每天的同步量在几百GB上下,大型的数据仓库每天达PB级别,甚至EB级别批量数据同步:1)离线的数据线仓库用于负责将不同数据源的数据同步到数据仓库,以及定时将数据同步到业务系统2)要...原创 2019-05-09 21:59:29 · 2011 阅读 · 1 评论 -
漫谈阿里那些大数据技术,大数据学习者必看
目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象。我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的大数据,不是几篇文章就能说清楚的。 一,DT时代 大数据这个概念,其实在上世纪九十年代就有人提出来了,当时希望通过将所有零散的数据归并起来,然后进行数据挖掘,以看到以前存在的问题,去预...原创 2019-05-01 21:59:20 · 10571 阅读 · 0 评论 -
大数据开发第一步:Hadoop基础学习
目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念大数据的本质一、数据的存储:分布式文件系统(分布式存储)二、数据的计算:分部署计算基础知识学习大数据需要具备Java知识基础及Linux知识基础学习路线(1)Java基础和Linux基础(2)Hadoop的学...原创 2019-04-27 21:52:51 · 817 阅读 · 0 评论 -
大数据的十大流行误区,你中了几个?
技术和科学每天都在观察革命性的进步,企业正在努力从中汲取最大的利益。数据分析是这样一个领域,他们利用大数据和数据科学,将大量数据与业务战略相结合。实际上,大数据对所有企业都有合理的承诺,无论其规模如何。通过大数据分析,企业可以获得洞察力,帮助他们不仅可以增加收入,还可以了解他们的服务和产品中的差距。让我们来看看最常见的大数据误区作为一项不断发展的技术和相对较新的概念,大数据其实存在极少...原创 2019-05-03 21:45:40 · 450 阅读 · 0 评论 -
大数据技术与Apache Hadoop生态的进化
一、什么是大数据对于“大数据”(Big data)研究机构 Gartner 给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。以上的概念体现出了两个关键信息,一个是数据量大,一个是数据形态多样。(1)数据量有多大呢?以百度系统为例,它每天要产生100TB~1PB的日志数据。一般我们电脑的硬盘是1...原创 2019-05-05 21:59:22 · 466 阅读 · 0 评论 -
大数据的了解和入门级的学习方法
一:大数据的了解大数据(巨量数据集合)是现代社会非常时髦的一个名词。是数据科学的一个高阶状态。数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。催生出了一些与大数据相关的职业,通过对数据的分析挖掘来影响企业的商业决策。国内,大数据的应用处于萌芽状态,人才市场还不太成熟,每家公司对大数据工作的要求不尽相同:有的强调数据...原创 2019-05-05 21:59:24 · 798 阅读 · 0 评论 -
Hadoop学习笔记
一、Hadoop基础知识:(主要解决海量数据存储和海量数据分析计算)1、Hadoop的优势:1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性...原创 2019-05-06 21:59:42 · 851 阅读 · 0 评论 -
数据湖和数据仓库的区别是什么?
我们都知道,进行数据分析工作的时候会用到很多的工具,比如说数据湖和数据仓库,不过这两者之间的差异和区别,可能会让人困惑。那么大家知道不知道数据湖和数据仓库的区别是什么呢?下面我们就给大家介绍一下数据湖和数据库的相关知识。那么什么是数据湖呢?其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的开发主要是为...原创 2019-05-06 21:59:45 · 21898 阅读 · 4 评论 -
学大数据培训纯粹是为了炫技?
学大数据开发纯粹是为了炫技?如果我们一味的追求大数据,炫技,而忽视行业思维的培养,那所学技能会像工具一样让许多人变为工具的奴隶。而真正建立新竞争力的人,是属于能够建立自己知识体系,真正把数据知识融合运用的人。大数据培训的知识学习掌握运用得当将会发挥巨大的能量。目前,互联网公开资源,包括网络公开课等,已经具有很好的学习环境,各类数据人不断在输出技能。相信只要有心,一定能够找到自身发展的特点,...原创 2019-05-09 21:59:43 · 412 阅读 · 0 评论 -
大数据、云计算系统顶级架构师课程学习路线图
大数据、云计算系统架构师顶级课程阶段一、大数据、云计算 - Hadoop大数据开发技术课程一、大数据运维之Linux基础本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。 1)Linux系...原创 2019-05-09 21:59:34 · 2183 阅读 · 0 评论 -
大数据项目及实现
1,离线数据处理:项目内容为通过对网站访问日志的采集和清洗,结合数据库中的结构化用户数据,统计并展示网站的PV、UV情况,以对网站的运行情况进行监控。通过此项目,回顾并串联前面讲述的离线数据处理相关技术,如:FIune、Sqoop、Hive、Spark等,了解和掌握PB级数据离线处理的一般过程和架构。2,流式数据处理:项目内容为通过对数据库交易数据修改的实时同步,监控网站实时交易情况,以提高网...原创 2019-05-11 21:39:36 · 4919 阅读 · 0 评论