大数据
文章平均质量分 93
Jonny的ICU
梦还是要做的,万一见鬼了呢!
展开
-
什么是数据挖掘
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。转载 2017-07-17 21:11:41 · 3146 阅读 · 0 评论 -
大数据起步之wormhole初识
第一个接触wormhole是公司的一个开发项目,由于之前供职于宜信,接触到这个开源项目,目前宜信已经推出Davinci、Moonbox、Wormhole、UAV.Monitor等10项领先开源技术,以将宜信的技术和方法开放共享,繁荣技术生态。开源网址:https://github.com/edp963/wormholewormhole的简介: Wormhole是一个SP...原创 2019-04-21 15:21:49 · 1906 阅读 · 2 评论 -
大数据起步之Paxos算法
Paxos算法是莱斯利·兰伯特(英语:Leslie Lamport,LaTeX中的“La”)于1990年提出的一种基于消息传递且具有高度容错特性的一致性算法 问题和假设 分布式系统中的节点通信存在两种模型:共享内存(Shared memory)和消息传递(Messages passing)。基于消息传递通信模型的分布式系统,不可避免的会发生以下错误:进程可能会慢、被杀死或者重启,消...转载 2018-11-16 16:41:52 · 222 阅读 · 1 评论 -
#Wormhole# (开源)流式处理平台设计思想
导读:互联网的迅猛发展使得数据不再昂贵,而如何从数据中更快速获取价值变得日益重要,因此,数据实时化成为了一个大趋势。越来越多的业务场景需要实时分析,以极低的延迟来分析实时数据并给出分析结果,从而提高业务效率,带来更高价值。流式处理作为实时处理的一种重要手段,正在因数据实时化的发展而蓬勃发展。本文是敏捷大数据(Agile BigData)背景下的实时流式处理平台Wormhole的开篇介绍。Wormh...转载 2018-11-16 10:33:31 · 384 阅读 · 0 评论 -
大数据学习之Kafka原理总结
KafkaKafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Li...转载 2018-08-28 15:24:09 · 639 阅读 · 1 评论 -
hadoop探索之 浅析 Secondary NameNode(辅助namenode)
在初学Hadoop时,有个让人疑惑的概念:Secondary NameNode,也叫辅助namenode。从命名看,好像是第二个namenode,用于备份主namenode,在主namenode失败后启动。那么,Secondary NameNode的作用是什么?是如何工作的?一,NameNode HDFS集群有两类节点以管理者和工作者的工作模式运行,namenode就是其中的管理者。它管理着...转载 2018-08-09 19:07:18 · 347 阅读 · 0 评论 -
Python爬虫实习之scrapy运行后未爬取直接结束
一开始看到这种情况也soil一连懵逼,什么鬼,难道是我的IP不行被网站看上了,想想不可能啊,毕竟是第一次爬取,于是开始了我一点一点的纠错过程,一开始以为是我的工程项目的文件设置路径错了,后来发现并不是,于是又想是不是程序的启动运行脚本程序错了,改了半天发现也不是,于是我无奈了。。。。可是,有时候灵感就是那么一瞬间,是不是网址写错了。事实证明却是是这样,这里说写错了,并不是那种直接把网址真的写错...原创 2018-07-20 17:44:22 · 3997 阅读 · 3 评论 -
Python面试之麦穗人工智能“爬虫工程师实习生”
相对今上午的面试,本次面试一上来就是一波三折,各种视频电话各种无法接通,后来终于接通了,感觉面试官的语气就很不耐烦,反正感觉心情很糟糕,一种爱面不面的口气。。。。。。整个面试过程持续了15分钟,整个面试过程感觉相当被动,让我有种有劲发不出来的感觉,算了,不说了,还是说说面试题吧。1、你都遇到过哪些反爬虫措施?2、你在做12306过程中都用到了那些库?用什么库进行的网页解析。。。3、你在做“TB数据...原创 2018-05-09 16:44:04 · 1943 阅读 · 0 评论 -
Python面试之数据分析的三个距离
1 欧几里得距离:两个点之间的距离,也即通常情况下,我们所计算的距离,n维空间中的欧式距离的计算公式为:2 曼哈顿距离:两个点在标准坐标系上的绝对轴距总和,在2维空间中的计算公式为:3 切比雪夫距离:各坐标数值差的最大值,在2维空间中的计算公式为:...原创 2018-03-26 22:29:11 · 758 阅读 · 0 评论 -
大数据入门之旅
学习要根据自身情况来定,如果你是零基础,那就必须先从基础Java开始学起(大数据支持很多开发语言,但企业用的最多的还是Java),接下来学习数据结构、Linux系统操作、关系型数据库,夯实基础之后,再进入大数据的学习,具体可以按照如下体系:第一阶段CORE JAVA (加**的需重点熟练掌握,其他掌握)Java基础**数据类型,运算符、循环,算法,顺序结构程序设计,转载 2017-05-24 21:26:19 · 379 阅读 · 0 评论 -
大数据起步
大数据处理的共同特征:1)数据分布在多个节点 2)计算程序靠近离数据更近 3)数据处理尽量在本地完成 4)顺序读取的I/O代替随机读取的I/O大数据编程模型:1)大规模并行处理数据库系统(Massively Parallel Processing , MMP):EMC公司的Greenmlum系统和IBM 公司的Netezza系统2)内存数据库系统:Ora原创 2017-05-30 13:28:08 · 322 阅读 · 0 评论 -
数据挖掘 十大经典算法
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种转载 2017-06-07 18:49:34 · 345 阅读 · 0 评论 -
决策树的剪枝操作
首先先介绍几个基本概念:决策树(Decision Tree):在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。拟合:所谓拟合是指已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1, λ2,…原创 2017-07-17 21:09:49 · 13774 阅读 · 0 评论 -
大数据起步之centos7环境中安装kafka
本博文默认用户已经安装了jdk1.8 及以上一、安装Zookeeperwget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gztar -zxvf zookeeper-3.4.6.tar.gzcd zookeeper-3.4.6cp zoo_sample.cfg zo...原创 2019-04-19 09:25:00 · 281 阅读 · 0 评论