关闭

Python,PyCharm2017安装教程,包含注册码

一,安装PyCharm1.下载PyCharm进入https://www.jetbrains.com/pycharm/download/#section=windows官网下载页面,可以到到PyCharm有两个版本,一个专业版,一个自由版本; 这里写图片描述建议下载专业版本,点击download按钮下载professional版本, 注册码的事情后面搞定。2.安装,注册码激活正常安装,需要输入ac...
阅读(139) 评论(0)

spark 数据倾斜调优

一:均衡数据是我们的目标,或者说我们要解决数据倾斜的发力点。一般说shuffle是产生数据倾斜的主要原因,为什么shuffle产生数据倾斜主要是因为网络通信,如果计算之前通过ETL(ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从...
阅读(40) 评论(0)

elasticsearch知识点总结

1:es介绍 Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。基于RESTful接口。普通请求是…get?a=1 rest请求….get/a/1 2:全文搜索的工具有哪些 Lucene Solr Elasticsearch 3:es的bul...
阅读(27) 评论(0)

Kafka+Spark Streaming+Redis实时系统实践

基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像SparkStreaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。   我...
阅读(22) 评论(0)

kafka->spark->streaming->mysql(scala)实时数据处理案列

kafka->spark->streaming->mysql(scala)实时数据处理示例开发环境 windows10 64、eclipse、spark-1.6、scala 2.0.4、java1.8、maven3.05 将spark中的assembly包引入即可使用local模式运行相关的scala任务,注意不要使用scala2.11,非要使用的话先用这个版本的scala编译一遍spark哈...
阅读(33) 评论(0)

spark读取kafka数据 createStream和createDirectStream的区别

spark读取kafka数据 createStream和createDirectStream的区别 1、KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费...
阅读(33) 评论(0)

Spark的Shuffle过程介绍

Spark的Shuffle过程介绍 Shuffle Writer Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。 Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的bucket,Map产生的结果会根据设置的partitioner...
阅读(33) 评论(0)

Java架构师,大数据架构师,高并发设计模式,机器学习知识点分享

第一章:java精品课程目录大全 1、亿级流量电商详情页系统的大型高并发与高可用缓存架构实战 1课程介绍以及高并发高可用复杂系统中的缓存架构有哪些东西?32分钟 2基于大型电商网站中的商品详情页系统贯穿的授课思路介绍7分钟 3小型电商网站的商品详情页的页面静态化架构以及其缺陷11分钟...
阅读(212) 评论(0)

机器学习ML策略

机器学习ML策略 1、为什么是ML策略 例如:识别cat分类器的识别率是90%,怎么进一步提高识别率呢? 想法: (1)收集更多数据 (2)收集更多的多样性训练样本 (3)使用梯度下降训练更长时间 (4)尝试Adam代替梯度下降 (5)尝试更大的网络 (6)尝试更小的网络 (7)尝试dropout (8)尝试L2正则化 (9)修改网络架构(激励函数,隐含层单元数目)2、正交化...
阅读(32) 评论(0)

尝试Adam代替梯度下降

我们介绍Adam,这是一种基于一阶梯度来优化随机目标函数的算法。简介: Adam 这个名字来源于 adaptive moment estimation,自适应矩估计。概率论中矩的含义是:如果一个随机变量 X 服从某个分布,X 的一阶矩是 E(X),也就是样本平均值,X 的二阶矩就是 E(X^2),也就是样本平方的平均值。Adam 算法根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整针对...
阅读(28) 评论(0)

编写Spark SQL查询程序

首先在maven项目的pom.xml中添加Spark SQL的依赖 org.apache.spark spark-sql_2.10 1.5.2 通过反射推断Schema val sc:SparkContext //定义一个SparkContext类型的常量sc,SparkContext是Spark中提交作业的唯一通道 val sqlContext = new Sq...
阅读(30) 评论(0)

scala case class与class区别

在Scala中存在case class,它其实就是一个普通的class。但是它又和普通的class略有区别,如下:   1、初始化的时候可以不用new,当然你也可以加上,普通类一定需要加new; scala> case class Iteblog(name:String) defined class Iteblogscala> val iteblog = Iteblog(“iteblog_ha...
阅读(29) 评论(0)

SparkSession在akka中的多线程同步的情况

sparkSession: /** * The entry point to programming Spark with the Dataset and DataFrame API. * * In environments that this has been created upfront (e.g. REPL, notebooks), use the builder * to get...
阅读(26) 评论(0)

【内外网映射】通过外网ip来访问虚拟机服务器【转载】

参考 http://blog.csdn.net/jiandanokok/article/details/51387822经试验:可以通过外网访问家里笔记本win 7里面的虚拟机vmvare的Ubuntn服务器。比如用手机来访问笔记本电脑的虚拟机的服务器等。注意:win 7的ip地址和虚拟机的ip地址的网段是不一样的。 特别注意:只适用于公网ip是固定的。不固定的公网ip行不通。条件: 1. 家...
阅读(45) 评论(0)

自定义分区partitioner实现数据分区存储

package com.ljt.spark01.weblogimport java.net.URLimport org.apache.spark.HashPartitioner import org.apache.spark.SparkConf import org.apache.spark.SparkContext/** * 自定义分区partitioner实现数据分区存储 */ o...
阅读(36) 评论(0)

根据日志统计出每个用户在站点所呆时间最长的前2个的信息

package com.ljt.spark01import org.apache.spark.SparkConf import org.apache.spark.SparkContext import shapeless._0/** * 根据日志统计出每个用户在站点所呆时间最长的前2个的信息 * 1, 先根据”手机号站点”为唯一标识, 算一次进站出站的时间, 返回(手机号站点, 时间...
阅读(41) 评论(0)

maven编译spark源码

CentOS6.7-64bit编译hadoop2.6.4 1.下载maven(apache-maven-3.3.3-bin.tar.gz) http://archive.apache.org/dist/maven/maven-3/3.3.3/binaries/apache-maven-3.3.3-bin.tar.gz 2.安装maven tar -zxvf apache-maven-3.3....
阅读(38) 评论(0)

弹性分布式数据集RDD

RDD概述 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。 http://homep...
阅读(40) 评论(0)

Spark缓存清理机制

unpersist http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html#unpersist Dematerializes the RDD (i.e. Erases all data items from hard-disk and memory). However, the RDD object remains...
阅读(47) 评论(0)

基于Java、Kafka、ElasticSearch的搜索框架的设计与实现

https://github.com/chaokunyang/jkes.git基于Java、Kafka、ElasticSearch的搜索框架的设计与实现 我们,和小伙伴一起聊技术! Jkes Jkes是一个基于Java、Kafka、ElasticSearch的搜索框架。Jkes提供了注解驱动的JPA风格的对象/文档映射,使用rest api用于文档搜索。 安装 可以参考jkes-integ...
阅读(54) 评论(0)
90条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:16124次
    • 积分:649
    • 等级:
    • 排名:千里之外
    • 原创:41篇
    • 转载:41篇
    • 译文:1篇
    • 评论:0条