2018年09月_SanFanCSgo

09月 07月 06月 05月 04月 03月 01月

转载【转载】决策树处理缺失值

训练样本出现缺失值一、在选择分裂属性的时候，训练样本存在缺失值，如何处理？（计算分裂损失减少值时，忽略特征缺失的样本，最终计算的值乘以比例（实际参与计算的样本数除以总的样本数））假如使用ID3算法，那么选择分类属性时，就要计算所有属性的熵增(信息增益，Gain)。假设10个样本，属性是a,b,c。在计算a属性熵时发现，第10个样本的a属性缺失，那么就把第10个样本去掉，前9个样本组成新的样本...

2018-09-27 10:30:45 1965

原创 Python Spark MLlib 之决策树回归分析

数据准备选择UCI数据集中的Bike Sharing数据集(http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset)进行实验。场景：预测共享单车租借数量。特征：季节、月份、时间（0~23）、节假日、星期、工作日、天气、温度、体感温度、湿度、风速预测目标：每一小时的单车租用数量1、下载数据集并打开终端输入命令 ...

2018-09-13 18:21:29 3864 1

原创 Python Spark MLlib之决策树多分类

数据准备选择UCI数据集中的Covertype数据集(http://archive.ics.uci.edu/ml/datasets/Covertype)进行实验。点击查看数据集详细信息。1、下载数据集并打开终端输入命令 cd ~/pythonwork/PythonProject/data wget http://archive.ics.uci.edu/ml/machine-le...

2018-09-13 13:58:48 4178

原创 Python Spark MLlib之朴素贝叶斯分类

数据准备和决策树分类一样，依然使用StumbleUpon Evergreen数据进行实验。Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark...

2018-09-12 20:43:42 1874

原创 Python Spark MLlib之SVM支持向量机

2018-09-12 11:56:00 3118 1

原创 Python Spark MLlib之逻辑回归

2018-09-11 18:16:43 3165

原创 Python Spark MLlib 决策树分类

准备数据StumbleUpon Evergreen数据，来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。StumbleUpon 是一个个性化推荐引擎，根据用户的兴趣行为给用户推荐网页，而有些网页内容是即时性（ephemeral）的，比如新闻股票网页（用户短暂感兴趣），有些网页是长久性的（evergreen）如体育，...

2018-09-10 18:39:20 3157 4

原创基于Python Spark的推荐系统

ALS推荐算法Spark MLlib中实现了ALS(Alternating Least Squares)基于协同过滤的推荐算法。MovieLens数据集MovieLens数据集收集了大量用户对不同电影的评分，详情见数据集官网http://grouplens.org/datasets/movielens。下载ml-100k数据至工作目录中，终端输入命令： mkdir -p ...

2018-09-10 10:02:25 10114

原创在Pycharm中添加外部工具运行Python Spark

终端命令以不同模式运行Python Spark在“终端”中以不同模式运行Python Spark程序需要输入很长的命令，例如分别以local、Hadoop YARN、和Spark Standalone模式运行Python Spark（这里以~/pythonwork/PythonProject/wordcount.py为例）每次都要输入命令：local: cd ~/pythonwork...

2018-09-09 16:07:48 2980

原创 Pycharm(Linux系统)配置Python Spark（导入pyspark）

Linux下配置Python Spark 集成开发环境PycharmPycharm下载：JetBrain官网http://www.jetbrains.com/pycharm/download/#section=linux 将下载之后的文件pycharm-community-2018.2.3.tar.gz移至主文件夹下进行解压安装： tar xvf pycharm-community...

2018-09-09 13:29:14 5946 1

原创使用 Spark 创建WordCount

使用spark进行WordCount1、终端输入命令，创建目录~/pythonwork/ipynotebook/data及复制文件/usr/local/spark/LICENSE（对LICENSE做WordCount） mkdir -p ~/pythonwork/ipynotebook/data cp /usr/local/spark/LICENSE ~/pythonwork/ipyn...

2018-09-08 14:58:53 430

原创 Python Spark RDD

Python Spark RDDRDD(Resilient Distributed Dataset)弹性分布式数据集是Spark的核心，RDD能与其他系统兼容，可以导入外部存储系统的数据集，例如HDFS、HBase或其他Hadoop数据源。RDD的三种基本运算transformation“转换”运算：RDD执行“转换”运算会产生另外一个RDD；RDD具有lazy特性，“转换”运算并不...

2018-09-08 14:13:58 2256

原创在IPython Notebook运行Python Spark

安装Anaconda在continuum上下载Anaconda2-2.5.0 for Linux终端命令行： wget https://repo.continuum.io/archive/Anaconda2-2.5.0-Linux-x86_64.sh bash Anaconda2-2.5.0-Linux-x86_64.sh -b -b 指batch，批次安装，自动省略阅读L...

2018-09-07 22:23:47 896

原创 Python Spark的介绍与安装

Spark的Cluster模式架构图摘自Apache官网：其中DriverProgram为设计的Spark程序，在Spark程序中必须定义SparkContext（开发Spark应用程序的入口）。SparkContext通过Cluster Manager管理整个集群，集群中包含多个Worker Node，在每个Worker Node中都有Executor负责执行任务Spa...

2018-09-07 20:10:54 4830

原创 Hadoop Single Node Cluster安装

Hadoop Single Node Cluster安装Hadoop Single Node Cluster 可以用一台机器来建立Hadoop环境。Hadoop Single Node Cluster 只有一台服务器，整合了所有功能：安装步骤：安装JDK：Hadoop是基于Java开发设置SSH无密码登录：Hadoop必须通过SSH与本地计算机以及其他主机连接，必须设置SS...

2018-09-06 16:34:34 1091 1

原创 VirtualBox虚拟机下Ubuntu安装增强功能

Ubuntu安装增强功能初始安装的Ubuntu会有些问题：屏幕分辨率不够鼠标光标停顿延迟无法与原系统共享剪切板安装增强功能（Guest Additions）来解决这些问题。点击菜单栏的”设备“–&gt;安装增强功能按照提示进行安装。安装完成后，重启系统。...

2018-09-05 22:17:41 7800

原创 Windows环境下VirtualBox虚拟机安装及Ubuntu Linux操作系统安装

VirtualBox的下载与安装在Windows（版本10，64位）下安装VirtualBox 5.0（点击进入下载地址），选择“Windows hosts” 选择默认安装，直接点Next，Next,..Finish，完成安装。启动VirtualBox：设置VirtualBox存储文件夹Virtual默认在C盘创建一个文件用于存储虚拟主机的所有数据，变更该文件到其他硬...

2018-09-05 21:25:27 2594 1

原创 Spark、Python spark、Hadoop简介

Spark、Python spark、Hadoop简介Spark简介1、Spark简介及功能模块Spark是一个弹性的分布式运算框架，作为一个用途广泛的大数据运算平台，Spark允许用户将数据加载到cluster集群的内存中储存，并多次重复运算，非常适合用于机器学习算法。Spark的核心是RDD(Resilient Distributed Dataset)弹性分布式数据集，...

2018-09-05 18:10:21 6747

StumbleUpon Evergreen 数据集

StumbleUpon Evergreen数据，来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。 StumbleUpon 是一个个性化推荐引擎，根据用户的兴趣行为给用户推荐网页，而有些网页内容是即时性（ephemeral）的，比如新闻股票网页（用户短暂感兴趣），有些网页是长久性的（evergreen）如体育，理财等（用户持续感兴趣）。现要分辨网页是ephemeral的还是evergreen的，以便向用户推荐更加准确的网页。这是一个二分类问题。查看StumbleUpon数据的详细信息：https:www.kaggle.com/c/stumbleupon/data

2018-09-10

用于构造决策树的小数据集

数据挖掘概念与技术课本P218页数据表格式为.csv。。决策树一般采用贪心策略**自顶向下**递归的分治方式构造，从训练元组集和与之相关联的类标号开始，随着树的构建，训练集递归地划分成较小的子集。构造过程大致如下： 1. 构造**根结点**，根据**属性选择度量**（例如ID3的信息增益）来选择合适的属性作为根结点。 2. 根据根结点的属性值（可能是离散的，连续的或二值的）**分枝**，每个分枝代表元组在该属性下可能满足的条件。

2018-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人