自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 awk详解

2018-12-03 10:53:39 189

原创 spark SQL

创建SQLContext对象val sqlContext=new.org.apache.spark.sql.SQLContext(sc)创建dataframe对象结构化数据文件创建dataframe(1)parquet文件:val dfusers = sqlContext.read.load(/xxx.xls)(2)json文件:val sfusers=sqlContext.r...

2018-11-27 22:29:41 226

原创 决策树之ID3算法

决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分为若干个子集构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分ID3算法ID3算法基于信息熵来选择最佳测试属性。它选择当前样本集中具有最大信息增益值的属性作为测试属性用信息增益值度量不确定性:信息增益值越大,不确定性越小所以ID3算法在每个非叶节点选择信息...

2018-11-27 20:55:03 630

原创 逻辑回归

分类主要是预测分类标号(离散属性)预测主要是简历连续值函数模型,预测给定自变量对应的因变量的值logistics回归,因变量一般有1和0两种取值,是广义线性回归模型的特例,研究的是当y取“是”发生的概率p与自变量x1,x2…xp的关系当自变量之间出现多重共线性时,用最小二乘估计的回归系数将会不准确消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归logistics回归建模步骤...

2018-11-27 20:31:57 474

原创 异常值分析

异常值指样本中的个别值,其数值明显偏离其余的观测值,也称为离群点简单统计量分析可以先对变量做一个描述性统计,进而查看那些数据是不合理的最常用的统计量为最大值和最小值2.3σ原则(标准差)如果数据服从正态分布,在3标准差原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值在正态分布的假设下,距离平均值P(|x-μ|>3σ)≤0.003属于极小概率事件如果数据不服...

2018-11-27 19:11:11 4580

原创 numpy

处理速度为c语言级别多种高级扩展库的依赖库尽量使用其内置函数安装1、Windows:pip install numpy2、自行下载源码:python setup.py install3、Ubuntu:sudo apt-get install python-numpy基本操作# -*- coding: utf-8 -*import numpy as np a = np.arr...

2018-11-27 17:39:37 114

原创 Python扩展库

Numpy:数组支持,相应的高效处理函数scipy:矩阵支持,矩阵相关的数值计算模块matplotlib:数据可视化工具,作图库pandas:强大的数据分析和探索工具statsmodels统计建模和计量经济学scikit-learn:支持回归、聚类、分类的强大的机器学习库keras:深度学习库,用于建立神经网络和深度学习模型gensim:用来做文本主题模型的库,文本挖掘可能用到...

2018-11-27 17:28:53 365

转载 numpy 与Python list的区别

Numpy是专门针对数组的操作和运算进行了设计,所以数组的存储效率和输入输出性能远优于Python中的嵌套列表,数组越大,Numpy的优势就越明显。通常Numpy数组中的所有元素的类型都是相同的,而Python列表中的元素类型是任意的,所以在通用性能方面Numpy数组不及Python列表,但在科学计算中,可以省掉很多循环语句,代码使用方面比Python列表简单的多。数组是由某种类型的元素组成的连...

2018-11-27 17:22:17 4325

转载 oracle基本命令使用

Oracle 数据库常用操作语句大全一、Oracle数据库操作1、创建数据库 create database databasename2、删除数据库 drop database dbname3、备份数据库完全备份exp demo/demo@orcl buffer=1024 file=d:\back.dmp full=y demo:用户名、密码 buffer: 缓存大小...

2018-11-27 14:13:04 251

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除