机器学习
文章平均质量分 83
SunnyRivers
在通信、游戏、互联网、新能源等不同行业从事过多年大数据开发相关工作,想通过博客和大家一起分享大数据技术带来的经验和乐趣。
展开
-
Python 连续数据离散化最通俗的理解与操作
前言一些数据挖掘算法,特别是某些分类算法,如ID3算法、Apriori算法等,要求数据是分类属性形式。这样,常常需要将连续属性变换成分类属性,即连续属性离散化。离散化是干啥连续属性离散化就是在数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。所以,离散化涉及两个子任务:确定分类数以及如何将连续属性值映射到这些分类值。常用的离散化方法常用的离散化方法有等宽法、等频法和(一维)聚类。(1)等宽法将属性的值域分成具有相同宽原创 2021-01-05 18:26:40 · 10571 阅读 · 1 评论 -
Python数值特征转换
前言经常用SparkML中特征转换,包括二值化、多项式展开、字符串-索引变换、独热编码、规范化、最大-最小缩放、分位数离散化等等一系列的操作,可如何用python来实现呢?离散值处理准备个简单的数据df = pd.DataFrame({'Color':['red','blue','yellow']})df对于树模型,我们一般会做将非数值的字符串做数值编码:(1)如果类别非常少可以直接使用map赋值color_map = {'red':0,'yellow':'1','blue':2}原创 2020-11-18 14:30:15 · 2208 阅读 · 0 评论 -
Python 如何拆分数据集
前言训练模型之前一般需要把数据集拆分为训练集和测试集,使用python代码如何拆分的关键就是如何更方便的选择出自变量X和因变量Y。加载数据# 导入第三方模块import pandas as pd# 读入数据df = pd.read_csv(r'splitfeatures.csv')df.head()如何选择出X和Y最简单的方式一个一个选择X = df[['age','sex','income','profession']]y = df['is_buy']用iloc和loc原创 2020-10-28 16:32:56 · 27895 阅读 · 0 评论 -
python 下采样和上采样
前言由于工作数据量较大,训练模型很少直接单机python,一般都采用SparkML,最近把SparkML的工作使用python简单的写了一下,先写个上下采样,最终目的是为了让正负样本达到均衡(有人问:正负样本必须是1:1吗?1:1效果就一定最好吗?答:不一定)数据准备共20条数据,正样本1共有5条,负样本0共有15条。基础知识准备如何获取dataframe的行数pandas.DataFrame.shape 返回数据帧的形状df.shape[0] 返回行数de.shape[1] 返原创 2020-10-28 16:23:27 · 9753 阅读 · 2 评论 -
什么是机器学习
本文转自在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢...转载 2018-08-07 18:10:27 · 504 阅读 · 0 评论 -
Spark稀疏向量和稠密向量
前言旁边的小伙一副生无可恋的表情:这是为什么?我的代码和之前写的一样,而且都是从官网copy的,结果怎么是这样子啊,我只是用向量汇编将多列转为一列:val va = new VectorAssembler() .setInputCols(Array("age", "sex", "sign", "province_code", "lowest_usage", "thr...原创 2019-06-05 11:43:20 · 2592 阅读 · 0 评论 -
在Windows平台下载及安装 TensorFlow
前言学习TensorFlow可以参考如下网站官网中文社区githubWindows安装TensorFlow在线安装nightly包nightly安装包是TensorFlow团队2017年下半年推出的安装模式。适用于在一个全新的环境下进行TensorFlow的安装。在安装TensorFlow的同时,默认会把需要依赖的库也一起装上,是非常方便、快捷的安装方式。pip i...原创 2019-06-04 21:32:26 · 2967 阅读 · 0 评论 -
Pearson相关系数和Spearman相关系数的区别
前言相关系数是用以反映变量之间的相关关系程度的统计指标。其取值范围是[-1,1],当取值为0时表示不相关,取值为[-1,0)表示负相关,取值为(0,-1],表示负相关。目前常用的两种相关性系数为皮尔森相关系数(Pearson)和斯皮尔曼等级相关系数(Spearman)简介皮尔森相关系数评估两个连续变量之间的线性关系。其中:-1 ≤ p ≤ 1p接近0代表无相关性p接近1或-1......原创 2019-08-29 14:31:55 · 70320 阅读 · 10 评论