SanFancsgo的博客

业精于勤荒于嬉,行成于思毁于随。

【转载】决策树处理缺失值

训练样本出现缺失值 一、在选择分裂属性的时候,训练样本存在缺失值,如何处理? (计算分裂损失减少值时,忽略特征缺失的样本,最终计算的值乘以比例(实际参与计算的样本数除以总的样本数)) 假如使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本,属性是a,b...

2018-09-27 10:30:45

阅读数 345

评论数 0

Python Spark MLlib 之决策树回归分析

数据准备 选择UCI数据集中的Bike Sharing数据集(http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset)进行实验。 场景:预测共享单车租借数量。 特征:季节、月份、时间(0~23)、节假日、星期、工作日、天气、温度...

2018-09-13 18:21:29

阅读数 1084

评论数 1

Python Spark MLlib之决策树多分类

数据准备 选择UCI数据集中的Covertype数据集(http://archive.ics.uci.edu/ml/datasets/Covertype)进行实验。点击查看数据集详细信息。 1、下载数据集并打开 终端输入命令 cd ~/pythonwork/PythonProject/...

2018-09-13 13:58:48

阅读数 977

评论数 0

Python Spark MLlib之朴素贝叶斯分类

数据准备 和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。 Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DR...

2018-09-12 20:43:42

阅读数 356

评论数 0

Python Spark MLlib之SVM支持向量机

数据准备 和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。 Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DR...

2018-09-12 11:56:00

阅读数 361

评论数 0

Python Spark MLlib之逻辑回归

数据准备 和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。 Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DR...

2018-09-11 18:16:43

阅读数 629

评论数 0

Python Spark MLlib 决策树分类

准备数据 StumbleUpon Evergreen数据,来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。 StumbleUpon 是一个个性化推荐引擎,根据用户的兴趣行为给用户推荐网页,而有些网页内容是即时性(eph...

2018-09-10 18:39:20

阅读数 479

评论数 4

基于Python Spark的推荐系统

ALS推荐算法 Spark MLlib中实现了ALS(Alternating Least Squares)基于协同过滤的推荐算法。 MovieLens数据集 MovieLens数据集收集了大量用户对不同电影的评分,详情见数据集官网http://grouplens.org/datasets...

2018-09-10 10:02:25

阅读数 2785

评论数 0

在Pycharm中添加外部工具运行Python Spark

终端命令以不同模式运行Python Spark 在“终端”中以不同模式运行Python Spark程序需要输入很长的命令,例如分别以local、Hadoop YARN、和Spark Standalone模式运行Python Spark(这里以~/pythonwork/PythonProject/...

2018-09-09 16:07:48

阅读数 758

评论数 0

Pycharm(Linux系统)配置Python Spark(导入pyspark)

Linux下配置Python Spark 集成开发环境Pycharm Pycharm下载:JetBrain官网http://www.jetbrains.com/pycharm/download/#section=linux 将下载之后的文件pycharm-community-2018.2....

2018-09-09 13:29:14

阅读数 1176

评论数 0

使用 Spark 创建WordCount

使用spark进行WordCount 1、终端输入命令,创建目录~/pythonwork/ipynotebook/data及复制文件/usr/local/spark/LICENSE(对LICENSE做WordCount) mkdir -p ~/pythonwork/ipynotebook/...

2018-09-08 14:58:53

阅读数 75

评论数 0

Python Spark RDD

Python Spark RDD RDD(Resilient Distributed Dataset)弹性分布式数据集是Spark的核心,RDD能与其他系统兼容,可以导入外部存储系统的数据集,例如HDFS、HBase或其他Hadoop数据源。 RDD的三种基本运算 transformati...

2018-09-08 14:13:58

阅读数 460

评论数 0

在IPython Notebook运行Python Spark

安装Anaconda 在continuum上下载Anaconda2-2.5.0 for Linux 终端命令行: wget https://repo.continuum.io/archive/Anaconda2-2.5.0-Linux-x86_64.sh bash Anaconda2...

2018-09-07 22:23:47

阅读数 274

评论数 0

Python Spark的介绍与安装

Spark的Cluster模式架构图 摘自Apache官网: 其中 DriverProgram为设计的Spark程序,在Spark程序中必须定义SparkContext(开发Spark应用程序的入口)。 SparkContext通过Cluster Manager管理整个集群,集群中包含...

2018-09-07 20:10:54

阅读数 873

评论数 0

Hadoop Single Node Cluster安装

Hadoop Single Node Cluster安装 Hadoop Single Node Cluster 可以用一台机器来建立Hadoop环境。 Hadoop Single Node Cluster 只有一台服务器,整合了所有功能: 安装步骤: 安装JDK:Hadoop是基于J...

2018-09-06 16:34:34

阅读数 328

评论数 0

VirtualBox虚拟机下Ubuntu安装增强功能

Ubuntu安装增强功能 初始安装的Ubuntu会有些问题: 屏幕分辨率不够 鼠标光标停顿延迟 无法与原系统共享剪切板 安装增强功能(Guest Additions)来解决这些问题。点击菜单栏的”设备“–>安装增强功能 按照提示进行安装。安装完成后,重...

2018-09-05 22:17:41

阅读数 1133

评论数 0

Windows环境下VirtualBox虚拟机安装及Ubuntu Linux操作系统安装

VirtualBox的下载与安装 在Windows(版本10,64位)下安装VirtualBox 5.0(点击进入下载地址),选择“Windows hosts” 选择默认安装,直接点Next,Next,..Finish,完成安装。 启动VirtualBox: 设置Virtual...

2018-09-05 21:25:27

阅读数 84

评论数 0

Spark、Python spark、Hadoop简介

Spark、Python spark、Hadoop简介 Spark简介 1、Spark简介及功能模块 Spark是一个弹性的分布式运算框架,作为一个用途广泛的大数据运算平台,Spark允许用户将数据加载到cluster集群的内存中储存,并多次重复运算,非常适合用于机器学习算法。 S...

2018-09-05 18:10:21

阅读数 1439

评论数 0

红黑树及相关操作

红黑树 红黑树是一种常用的平衡二叉树,C++标准模板库中的set正是基于红黑树构造。红黑树具有以下几个性质: (1) 每个节点被着色成红色或黑色。 (2) 树的根节点是黑色的。 (3) 如果一个节点是红色的,则它的子节点必须是黑色的(即两个红色的节点不能连续出现)。 (4) 从一个节点到一个...

2018-07-01 20:26:33

阅读数 128

评论数 0

伸展树及相关操作

伸展树 简要提点 伸展树(Splay Tree)是一种二叉排序树,能在O(log n)内完成插入、查找和删除操作。 伸展树的基本操作都和伸展有关:当带有关键字X的节点被插入时,需要对树进行一系列的伸展旋转使得关键字X的节点成为新的根节点。当查找一个关键字X时,也同样对树进行伸展旋转使得带...

2018-06-30 21:22:38

阅读数 375

评论数 0

提示
确定要删除当前文章?
取消 删除