![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术
sam-X
这个作者很懒,什么都没留下…
展开
-
Spark相关问题
Spark相关问题原创 2023-01-28 22:45:38 · 171 阅读 · 0 评论 -
CUDA——基本模型
CUDA简介CUDA(Compute Unified Device Architecture,统一计算架构)是由NVIDIA所推出的一种集成技术,通过这个技术,用户可以使用显卡中的资源进行大规模并行计算。为了后续CUDA编程的展开,该系列的第一篇首先从N系显卡的物理结构以及CUDA编程中的基本模型开始。物理结构Nvidia公司开发的GPU系列现在已经有Tesla、Fermi、K...原创 2018-07-03 20:33:37 · 3924 阅读 · 1 评论 -
初遇分布式系统(二)
《好玩又实在的分布式系统理论》的第二部分主要分析抽象的分布式系统模型并提出问题. 抽象是为了得到能充分描述系统的最少元素,能够排除干扰,分析本质的作用.系统模型程序在分布式系统中运行也就是,在独立节点并发运行通过网络连接节点并伴随着不确定性如信息丢失等无共享的存储器与时钟以上这些也就意味着,信息是局部的,很有可能其余节点得到的信息是过时的独立节点存在失效的情况...原创 2018-06-05 20:55:26 · 344 阅读 · 0 评论 -
初遇分布式系统(一)
简述前期博文主要是针对一些分布式系统资料的学习笔记.《Distributed systems theory for the distributed systems engineer》中提到的《好玩又实在的分布式系统理论》是一本精悍的书籍,主要针对分布式系统中的基本问题,如时序与复制策略等方面.首先需要说明关于分布式中的一些认知误区:网络是可靠的延迟为零带宽无限网络非常安全...原创 2018-06-04 21:44:57 · 346 阅读 · 0 评论 -
HDF5-简介
HDF(Hierarchical Data Format)是一种设计用于存储和组织大量数据的文件格式,最开始由美国国家超算中心研发,后来由一个非盈利组织HDF Group支持.HDF支持多种商业及非商业的软件平台,包括MATLAB、Java、Python、R和Julia等等,现在也提供了Spark.其版本包括了HDF4和现在大量用的HDF5,.虽然HDF Group仍然维护和支持HDF4,但是...原创 2018-04-13 17:05:59 · 34537 阅读 · 0 评论 -
复杂事件处理(Complex Event Processing)
复杂事件处理复杂事件处理(CEP,Complex Event Processing)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分析得到更复杂的复合事件,主要用于网络诈欺识别等防止犯罪,银行等金融行业防止,以及风险规避和营销决策...原创 2018-04-05 14:52:43 · 10096 阅读 · 1 评论 -
特征工程
特征工程是一个任务驱动的经验性处理过程数据与特征处理特征表达 数值型类别型时间型文本型统计型组合特征数据的表示应当转换为更理想的格式数值型幅度调整/归一化Log等变化统计值max,min,mean,std离散化(一个特征变多个特征)(等距切分,等频切分)Hash分桶每个类别下对应的变量统计值histogram试试 数值型=>类别型...原创 2017-12-13 21:31:19 · 375 阅读 · 0 评论 -
参数服务器——分布式机器学习的新杀器
在大规模数据上跑机器学习任务是过去十多年内系统架构师面临的主要挑战之一,许多模型和抽象先后用于这一任务。从早期的MPI,到后来的Hadoop,乃至于目前使用较多的Spark,都曾被广泛应用于大规模机器学习处理任务。John Langford曾经在他的博客(机器学习领域最好的博客之一)上总结和对比了主流的分布式机器学习框架的抽象[1]: MPI Gradient Agg转载 2017-12-05 10:36:50 · 10307 阅读 · 0 评论 -
Hadoop踩坑
ulimit -a for user ubuntuhadoop的所有datanode节点无法启动,查看datanode的日志文件,发现ulimit -a for user ubuntu 修改/etc/security/limits.conf,再重启datanode在开启过后随即自动关闭clusterID冲突,把datanode中的VERSION删掉,再格式化操作, hadoop n原创 2017-08-29 19:37:08 · 686 阅读 · 0 评论 -
Hadoop常用端口号
转载地址:https://www.cnblogs.com/jancco/p/4447756.html 一、常用端口组件 节点 默认端口 配置 用途说明 HDFS DataNode 50010 dfs.datanode.address datanode服务端口,用于数据传输 HDFS DataNode 50075 dfs.datanode.htt转载 2017-11-20 16:54:01 · 10655 阅读 · 1 评论