大数据
JeemyJohn
这个作者很懒,什么都没留下…
展开
-
大数据开源框架特点大总结
1. ElasticSearch1.1 ElasticSearch的优点:高并发。实测es单机分配10g内存单实例,写入能力1200qps,60g内存、12核CPU起3个实例预计可达到6000qps。同机房单条数据写入平均3ms(比mysql慢,mg不清楚)容错能力比mg强。比如1主多从,主片挂了从片会自动顶上满足大数据下实时读写需求,无需分库(不存在库的概念)。易扩展。实例间做下配置即可原创 2016-12-06 19:00:09 · 1909 阅读 · 5 评论 -
SparkContext的parallelize
在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。在集群模式中,Spark将会原创 2016-12-27 09:55:48 · 5126 阅读 · 10 评论 -
SQL
CREATE TABLE IF NOT EXISTS recommend.ml_honey_feature( momo_id STRING COMMENT '用户ID' ,videoid STRING COMMENT '视频ID' ,score INT COMMENT '得分')PARTITIONED BY (partition_date STRING COMMENT原创 2017-11-13 21:00:21 · 470 阅读 · 0 评论 -
Spark资源调优
0. 概述 在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总原创 2017-12-23 13:24:32 · 1484 阅读 · 0 评论 -
Spark 常见问题解决方案
Spark 常见问题收集,并给出相应的解决方案。分享给大家,希望大家不要走弯路……原创 2017-12-23 14:40:53 · 25306 阅读 · 0 评论 -
Spark问题集锦
使用外部链接对象(如Jedis客户端)在Streaming RDD中发送数据时,一定要使用单例。否则会出现各种Bug。在IDEA中使用maven混合Scala和Java打Jar包时,Java的类要写在Java目录里。如果将Java类定义在scala目录下,会出现 NoClassDefFoundError 异常。持续更新中…… 对机器学习和人工智能感兴趣,请扫码关注微信公众号!原创 2017-12-28 21:36:34 · 621 阅读 · 0 评论 -
Python计算相关性
计算相关性import numpy as npimport pandas as pd# load datadata = pd.read_csv('result.csv', header=0)print(data)df = data.drop(['experiment'], axis=1)# 计算不同的相关系数corr = df.corr(method='pearson')p...原创 2018-11-14 14:35:48 · 2401 阅读 · 0 评论