数据人生

数据分析/数据挖掘 大数据交流加QQ群338726492或扫头像微信关注"一起DM"公众号...

排序:
默认
按更新时间
按访问量

机器学习入门-过拟合欠拟合

机器学习最重要的就是模型训练训练结果怎么反馈,一般有三种叫法,欠拟合,拟合,过拟合。下面介绍下白话介绍下具体含义下面三个图分别展示的是欠拟合,合适拟合,过拟合针对线性回归模型:针对逻辑回归模型:解释:1,形象例子欠拟合:光看书不做题觉得自己会了,上了考场啥都不会。过拟合: 课后题全能做对但是理解的...

2018-04-08 16:34:09

阅读数:97

评论数:0

10分钟入门go语言

Go是一种新的语言,一种并发的、带垃圾回收的、快速编译的语言,go支持的平台:LinuxFreeBSDMac OS X(也称为 Darwin)Window我们选择在Windows下载安装go环境https://golang.org/dl/  选择windows-amd64.msi完成后双击安装,完...

2018-03-16 11:01:28

阅读数:228

评论数:0

数据分析EXCEL入门必备

做数据分析,不光要会编程,基本的excel也得会两手。这样可以大大提高工作效率。例如下面:vlookup匹配:=VLOOKUP(A2,I:J,2,FALSE)=VLOOKUP(B2,L:M,2,FALSE)去重求个数=SUMPRODUCT(1/COUNTIF(C2:C7,C2:C7))求和=SUM...

2018-02-11 10:40:10

阅读数:202

评论数:0

scala基础

翻译自《big data analytics with spark》第二章Programming in Scalascala基础虽然scala包含了面向对象编程和函数式编程的能力,但是他更侧重函数式编程。写spark程序,只会用到一点点scala的基本功能,所以只需要学一点点scala就可以了。自...

2017-11-23 09:45:59

阅读数:342

评论数:0

100行代码入门Scala

100行代码入门scala//定义类,传入变量默认实现get set方法 class People(var name:String, var age:Int) { //默认构造函数 println("get people one") name+=&q...

2017-10-17 16:01:00

阅读数:293

评论数:2

Linux高级命令汇总

安装rpm -qa |grep softwarename 列出所有被安装的rpm package,包含softwarename的软件 rpm –e softwarename 删除软件 rpm –e --nodeps softwarename 强制删除软件包 rpm –Uhv softwar...

2017-09-15 10:52:58

阅读数:649

评论数:0

Hbase命令整理

hbase shell general命令:ddl 命令

2017-09-14 17:10:40

阅读数:441

评论数:0

HIVE全部函数详解

函数名 含义及实例 abs abs(x) - returns the absolute value of x Example:   > SELECT abs(0) FROM src LIMIT 1;   0   > SELECT abs(-5) F...

2017-09-13 18:04:28

阅读数:3557

评论数:0

Mapreduce实例-JOIN

package com.sohu.tv.amstat.mr.test; import java.io.IOException; import java.util.ArrayList; import org.apache.hadoop.conf.Configuration; import org...

2017-07-28 13:55:17

阅读数:382

评论数:0

Spark MLlib之协同过滤

Spark MLlib 协同过滤实例

2017-03-23 14:16:20

阅读数:1150

评论数:0

Spark MLlib之KMeans

Spark MLlib之KMeansimport org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; imp...

2017-03-22 17:46:04

阅读数:864

评论数:1

Spark MLlib之线性回归

回归 RegressionMetrics mllib spark

2017-03-22 14:12:46

阅读数:1966

评论数:1

SPARK各种提交方式总结

1,Spark SQL1.1 spark sql运行在yarn之前注意在/etc/profile配置export HADOOP_HOME=/data/hadoop/hadoop-2.7.1export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export Y...

2017-03-21 18:24:04

阅读数:2462

评论数:0

Hive ORC数据格式的MapReduce Shuffle

1,mr代码如下package com.test.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import ...

2017-03-03 17:01:25

阅读数:701

评论数:0

MD5/DES/AES加密实现

三种加密方式,java版本实现代码如下:import java.io.UnsupportedEncodingException; import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; ...

2016-12-23 14:58:17

阅读数:1751

评论数:0

[译] MYSQL索引最佳实践

转自http://www.uoota.com/blog/archives/27218?utm_source=geek你做了一个明智的选择理解索引对开发和dba来说都是极其重要差劲的索引对产品问题负相当大的一部分责任索引不是多么高深的问题MySQL 索引一览表理解索引为你的应用创建最佳索引拥抱MyS...

2016-12-05 14:33:44

阅读数:720

评论数:0

python,scala,java中的map,reduce和filter

1,python中的map,reduce,filter使用     >>> a=[1,2,3,5] >>> map(lambda x:x+x,a) [2, 4, 6, 10] >>> map(lambda x:2*x,a) [2, 4, 6, ...

2016-12-01 12:04:09

阅读数:1761

评论数:1

数据挖掘-高等数学常用概念用法总结

1,  对数:如果a的x次方等于N(a>0,且a不等于1),那么数x叫做以a为底N的对数(logarithm),记作x=logaN。其中,a叫做对数的底数,N叫做真数默认以e为底数>>> from math import * >>> log(8,2) 3....

2016-11-29 17:35:03

阅读数:1553

评论数:0

史上最全“大数据”学习资源整理

当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法...

2016-10-21 15:00:58

阅读数:2634

评论数:1

Hbase的REST访问

Hbase的访问方式1、Native Java API:最常规和高效的访问方式;2、HBase Shell:HBase的命令行工具,最简单的接口,适合HBase管理使用;3、Thrift Gateway:利用Thrift序列化技术,支持C++,PHP,Python等多种语言,适合其他异构系统在线访...

2016-07-28 16:23:38

阅读数:9223

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭