自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Python——随机森林原理

随机森林(Random Forest)算法原理1.随机森林原理、决策树、集成学习决策树决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。用树的结构构件分类模型,每个非叶子结点表示一个特征属性上的测试,每个叶子结点表征着一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择直到到达叶子节点,将叶子节点存放的类别作为决策结果。...

2019-06-15 21:52:28 1120

原创 Python入门笔记-4 Python运算符

Python运算符1.Python算数运算符a=10 b=30运算符描述实例+加:两个对象相加a+b 输出结果 40-减:负数或两个数相减a-b 输出结果 -20*乘:两个数相乘或者是返回一个被重复若干次的字符串a*b 输出结果 300/除:两个数相除b/a 输出结果 3%模除:返回除法的余数b%a 输出结果 0**幂...

2019-06-13 23:32:56 308

原创 python——k-means聚类算法

k-means聚类算法k-means算法属于无监督学习的一种聚类算法,其目的为:在不知数据所属类别及类别数量的前提下,依据数据自身所暗含的特点对数据进行聚类。对于聚类过程中类别数量k的选取,需要一定的先验知识,也可根据“类内间距小,类间间距大“(一种聚类算法的理想情况)为目标进行实现。需要用到sklearn库,scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,S...

2019-06-10 23:34:15 4371 2

原创 Python入门笔记-3 Python常用内置函数

查看对象的类型:type()查看对象的内存:id()字符和其对应编码的转换:ord()和chr()查看长度:len()最值:max(list)/min(list)绝对值:abs()求和(list元素的和):sum(list)排序:sorted(list)获取指定位数的小数,round(a,b)生成一个a到b的数组,左闭右开:range(a[,b])我使用的版...

2019-06-10 19:39:20 158

原创 Python入门笔记-2数据类型

数据类型Number字符串列表元组字典1.标准数据类型:Number用于存储数值python支持四种不同的数值类型1). 整型(int):通常被称为是整型或整数,是正或负整数,不带小数点。幂运算:pow() 和 **类型转换:1>.转为二进制:bin()2>.转为八进制:oct()3>. 转为十六进制:hex()其他进制或仅包含数字的字符串转...

2019-06-08 00:04:07 224

原创 Python入门笔记-1语法规则

语法规则1.python标识符python标识符由:字母、数字、下划线组成单下划线开头:不能直接访问的类属性,_foo双下划线开头:私有属性, __foo双下划线开头和结尾:代表特殊方法,如_int_() 类的构造函数标识符区分大小写2.行和缩进语句之间断行代码块之间使用缩进表示代码层次关系一行写多条语句时使用;分开3.Python引号多行注释使用三引号可以使...

2019-06-07 23:23:39 160

原创 如何评估模型好坏

模型的好坏评估,对于不同的模型,不同的用途,有不同的模型评价标准。回归:MSE(均方误差)—— 判定方法:值越小越好。真实值-预测值 然后平方之后求和平均 RMSE(均根方误差)——判定方法:值越小越好。MSE开根号 R squared/拟合优度 —— 判定方法:值越接近1模型表现越好分类:这部分之前的博客写过ROC ——判定方法:ROC曲线应尽量偏离参考线(ROC曲线离...

2019-06-05 20:47:47 7933

原创 hive排序

order by全局排序 在严格模式下必须使用limit限定条件,因为如果数据量特别大的话会出现无法输出结果的情况,如果进行limit n限定,那么只有 (n * map number)条记录进行处理。 与数据库中 order by 的区别在于在hive.mapred.mode = strict 模式下 必须指定 limit 否则执行会报错。select * fromtab_sc...

2019-06-05 20:10:09 224

原创 linux查看文件中的某几行

显示一个文件的某几行(中间几行)用head&tail命令从第300行开始,显示100行(即显示300~399行)cat filename | tail -n +300| head -n 100 显示100行到300行 cat filename| head -n ...

2019-06-05 19:42:58 10553

原创 linux统计关键字

查找关键字grep 单个字符串:grep -o Str_1file_name| wc -l 多个字符串:grep -o 'Str_1\|Str_2\|Str_3……' file_name | wc -l 注:必须加引号(单双都可)awk awk -v RS="@#$j" '{pri...

2019-06-05 19:35:28 2778

原创 Hive存储格式

Hive的四种存储格式;TextFile、SequenceFile、RCFile、Parquet基于行存储:TextFile和SequenceFile 基于列存储:Parquet 基于行列混合的思想:RCFile——先按行把数据划分成N个row group,在row group中对每个列分别进行存储列式存储和行式存储的比较 优点 缺点 行式存储...

2019-06-05 11:08:51 1952

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除