数据人生

数据分析/数据挖掘 大数据交流加QQ群338726492或扫头像微信关注"早起的码农"公众号......

Mongodb副本集和分片

MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。 而且mongodb也有索引,视图功能, MongoDB 4.0 引入的事务功能,支持多文档ACID特...

2019-08-20 21:33:02

阅读数 17

评论数 0

Elasticsearch基础实践

Elasticsearch是高度可伸缩的开源全文搜索和分析引擎。它允许我们快速实时地存储、搜索、分析大数据。Elasticsearch是一个接近实时的搜索平台,对大数据量的处理我们通过搭建ES集群来完成。 1,集群的几个概念: 主节点 服务器只作为一个主节点,但不存储任何索引数据,主节点负...

2019-07-08 20:56:31

阅读数 25

评论数 0

Presto Functions

1 求数组长度 cardinality(x) → bigint Returns the cardinality (size) of the array x eg: select cardinality(array[1,24,3]) result: 3 2 获取数组第一个元素(下标从1开始)...

2019-07-03 11:47:41

阅读数 50

评论数 0

Spark Rdd DataFrame操作汇总

直接上测试代码: import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions.{udf, _} import org.junit...

2019-05-04 12:06:22

阅读数 95

评论数 0

Aerospike API操作Map

Aerospike是一个高性能、可扩展、可靠性强的NoSQL解决方案,支持RAM和SSD作为存储介质,并专门针对SSD特殊优化,广泛应用于实时竞价等实时计算领域。官方保证99%的操作在1ms内完成,并提供集群数据自动Rebalance、集群感知客户端等功能,且支持超大规模数据集(100T级别)的存...

2019-03-01 15:01:31

阅读数 175

评论数 0

spark-submit 参数

Usage: spark-submit [options] <app jar | python file | R file> [app arguments] Usage: spark-submit --kill [submission ID] --ma...

2019-01-11 11:44:04

阅读数 198

评论数 0

大数据技术人常被问的问题

前几天转正答辩,我ppt讲完后,各部门大佬们来提问,有两个问题答得不是很好,后来有空了想想,其实要答也不难。 1,技术选型上为什么用A技术不用其他技术?      个人观点:技术选型上用某技术主要考虑 1),该技术的学习成本比较低;  2),该技术能不能高效满足需求并且稳定运行; 3),...

2018-10-06 10:37:41

阅读数 208

评论数 1

Mongodb常用查询Shell

Mongodb常用查询Shell 分组查询:包括过滤,分组,排序等 DBQuery.shellBatchSize = 2000; db.test_data.aggregate([{$group : {_id : "$day", num: {$sum : 1}}},{$s...

2018-09-26 17:35:00

阅读数 530

评论数 1

机器学习入门-过拟合欠拟合

机器学习最重要的就是模型训练训练结果怎么反馈,一般有三种叫法,欠拟合,拟合,过拟合。下面介绍下白话介绍下具体含义下面三个图分别展示的是欠拟合,合适拟合,过拟合针对线性回归模型:针对逻辑回归模型:解释:1,形象例子欠拟合:光看书不做题觉得自己会了,上了考场啥都不会。过拟合: 课后题全能做对但是理解的...

2018-04-08 16:34:09

阅读数 652

评论数 0

10分钟入门go语言

Go是一种新的语言,一种并发的、带垃圾回收的、快速编译的语言,go支持的平台:LinuxFreeBSDMac OS X(也称为 Darwin)Window我们选择在Windows下载安装go环境https://golang.org/dl/  选择windows-amd64.msi完成后双击安装,完...

2018-03-16 11:01:28

阅读数 1385

评论数 2

数据分析EXCEL入门必备

做数据分析,不光要会编程,基本的excel也得会两手。这样可以大大提高工作效率。例如下面:vlookup匹配:=VLOOKUP(A2,I:J,2,FALSE)=VLOOKUP(B2,L:M,2,FALSE)去重求个数=SUMPRODUCT(1/COUNTIF(C2:C7,C2:C7))求和=SUM...

2018-02-11 10:40:10

阅读数 1312

评论数 0

scala基础

翻译自《big data analytics with spark》第二章Programming in Scalascala基础虽然scala包含了面向对象编程和函数式编程的能力,但是他更侧重函数式编程。写spark程序,只会用到一点点scala的基本功能,所以只需要学一点点scala就可以了。自...

2017-11-23 09:45:59

阅读数 409

评论数 0

100行代码入门Scala

100行代码入门scala//定义类,传入变量默认实现get set方法 class People(var name:String, var age:Int) { //默认构造函数 println("get people one") name+=&q...

2017-10-17 16:01:00

阅读数 434

评论数 2

Linux高级命令汇总

安装rpm -qa |grep softwarename 列出所有被安装的rpm package,包含softwarename的软件 rpm –e softwarename 删除软件 rpm –e --nodeps softwarename 强制删除软件包 rpm –Uhv softwar...

2017-09-15 10:52:58

阅读数 752

评论数 0

Hbase命令整理

hbase shell general命令:ddl 命令

2017-09-14 17:10:40

阅读数 509

评论数 0

HIVE全部函数详解

函数名 含义及实例 abs abs(x) - returns the absolute value of x Example:   > SELECT abs(0) FROM src LIMIT 1;   0   > SELECT abs(-5) F...

2017-09-13 18:04:28

阅读数 8923

评论数 0

Mapreduce实例-JOIN

package com.sohu.tv.amstat.mr.test; import java.io.IOException; import java.util.ArrayList; import org.apache.hadoop.conf.Configuration; import org...

2017-07-28 13:55:17

阅读数 441

评论数 0

Spark MLlib之协同过滤

Spark MLlib 协同过滤实例

2017-03-23 14:16:20

阅读数 1519

评论数 0

Spark MLlib之KMeans

Spark MLlib之KMeansimport org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; imp...

2017-03-22 17:46:04

阅读数 1083

评论数 1

Spark MLlib之线性回归

回归 RegressionMetrics mllib spark

2017-03-22 14:12:46

阅读数 2370

评论数 1

提示
确定要删除当前文章?
取消 删除