- 博客(18)
- 资源 (2)
- 收藏
- 关注
转载 【转载】决策树处理缺失值
训练样本出现缺失值一、在选择分裂属性的时候,训练样本存在缺失值,如何处理?(计算分裂损失减少值时,忽略特征缺失的样本,最终计算的值乘以比例(实际参与计算的样本数除以总的样本数))假如使用ID3算法,那么选择分类属性时,就要计算所有属性的熵增(信息增益,Gain)。假设10个样本,属性是a,b,c。在计算a属性熵时发现,第10个样本的a属性缺失,那么就把第10个样本去掉,前9个样本组成新的样本...
2018-09-27 10:30:45 1965
原创 Python Spark MLlib 之决策树回归分析
数据准备选择UCI数据集中的Bike Sharing数据集(http://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset)进行实验。场景:预测共享单车租借数量。 特征:季节、月份、时间(0~23)、节假日、星期、工作日、天气、温度、体感温度、湿度、风速 预测目标:每一小时的单车租用数量1、下载数据集并打开终端输入命令 ...
2018-09-13 18:21:29 3864 1
原创 Python Spark MLlib之决策树多分类
数据准备选择UCI数据集中的Covertype数据集(http://archive.ics.uci.edu/ml/datasets/Covertype)进行实验。点击查看数据集详细信息。1、下载数据集并打开终端输入命令 cd ~/pythonwork/PythonProject/data wget http://archive.ics.uci.edu/ml/machine-le...
2018-09-13 13:58:48 4178
原创 Python Spark MLlib之朴素贝叶斯分类
数据准备和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark...
2018-09-12 20:43:42 1874
原创 Python Spark MLlib之SVM支持向量机
数据准备和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark...
2018-09-12 11:56:00 3118 1
原创 Python Spark MLlib之逻辑回归
数据准备和决策树分类一样,依然使用StumbleUpon Evergreen数据进行实验。Local模式启动ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" MASTER=local[*] pyspark...
2018-09-11 18:16:43 3165
原创 Python Spark MLlib 决策树分类
准备数据StumbleUpon Evergreen数据,来源于Kaggle中的一个题目StumbleUpon Evergreen Classification Challenge。StumbleUpon 是一个个性化推荐引擎,根据用户的兴趣行为给用户推荐网页,而有些网页内容是即时性(ephemeral)的,比如新闻股票网页(用户短暂感兴趣),有些网页是长久性的(evergreen)如体育,...
2018-09-10 18:39:20 3157 4
原创 基于Python Spark的推荐系统
ALS推荐算法Spark MLlib中实现了ALS(Alternating Least Squares)基于协同过滤的推荐算法。MovieLens数据集MovieLens数据集收集了大量用户对不同电影的评分,详情见数据集官网http://grouplens.org/datasets/movielens。下载ml-100k数据至工作目录中,终端输入命令: mkdir -p ...
2018-09-10 10:02:25 10114
原创 在Pycharm中添加外部工具运行Python Spark
终端命令以不同模式运行Python Spark在“终端”中以不同模式运行Python Spark程序需要输入很长的命令,例如分别以local、Hadoop YARN、和Spark Standalone模式运行Python Spark(这里以~/pythonwork/PythonProject/wordcount.py为例)每次都要输入命令:local: cd ~/pythonwork...
2018-09-09 16:07:48 2980
原创 Pycharm(Linux系统)配置Python Spark(导入pyspark)
Linux下配置Python Spark 集成开发环境PycharmPycharm下载:JetBrain官网http://www.jetbrains.com/pycharm/download/#section=linux 将下载之后的文件pycharm-community-2018.2.3.tar.gz移至主文件夹下进行解压安装: tar xvf pycharm-community...
2018-09-09 13:29:14 5946 1
原创 使用 Spark 创建WordCount
使用spark进行WordCount1、终端输入命令,创建目录~/pythonwork/ipynotebook/data及复制文件/usr/local/spark/LICENSE(对LICENSE做WordCount) mkdir -p ~/pythonwork/ipynotebook/data cp /usr/local/spark/LICENSE ~/pythonwork/ipyn...
2018-09-08 14:58:53 430
原创 Python Spark RDD
Python Spark RDDRDD(Resilient Distributed Dataset)弹性分布式数据集是Spark的核心,RDD能与其他系统兼容,可以导入外部存储系统的数据集,例如HDFS、HBase或其他Hadoop数据源。RDD的三种基本运算transformation“转换”运算:RDD执行“转换”运算会产生另外一个RDD;RDD具有lazy特性,“转换”运算并不...
2018-09-08 14:13:58 2256
原创 在IPython Notebook运行Python Spark
安装Anaconda在continuum上下载Anaconda2-2.5.0 for Linux终端命令行: wget https://repo.continuum.io/archive/Anaconda2-2.5.0-Linux-x86_64.sh bash Anaconda2-2.5.0-Linux-x86_64.sh -b -b 指batch,批次安装,自动省略阅读L...
2018-09-07 22:23:47 896
原创 Python Spark的介绍与安装
Spark的Cluster模式架构图摘自Apache官网:其中DriverProgram为设计的Spark程序,在Spark程序中必须定义SparkContext(开发Spark应用程序的入口)。SparkContext通过Cluster Manager管理整个集群,集群中包含多个Worker Node,在每个Worker Node中都有Executor负责执行任务Spa...
2018-09-07 20:10:54 4830
原创 Hadoop Single Node Cluster安装
Hadoop Single Node Cluster安装Hadoop Single Node Cluster 可以用一台机器来建立Hadoop环境。Hadoop Single Node Cluster 只有一台服务器,整合了所有功能: 安装步骤:安装JDK:Hadoop是基于Java开发设置SSH无密码登录:Hadoop必须通过SSH与本地计算机以及其他主机连接,必须设置SS...
2018-09-06 16:34:34 1091 1
原创 VirtualBox虚拟机下Ubuntu安装增强功能
Ubuntu安装增强功能初始安装的Ubuntu会有些问题:屏幕分辨率不够鼠标光标停顿延迟无法与原系统共享剪切板安装增强功能(Guest Additions)来解决这些问题。点击菜单栏的”设备“–>安装增强功能按照提示进行安装。安装完成后,重启系统。...
2018-09-05 22:17:41 7800
原创 Windows环境下VirtualBox虚拟机安装及Ubuntu Linux操作系统安装
VirtualBox的下载与安装在Windows(版本10,64位)下安装VirtualBox 5.0(点击进入下载地址),选择“Windows hosts” 选择默认安装,直接点Next,Next,..Finish,完成安装。启动VirtualBox: 设置VirtualBox存储文件夹Virtual默认在C盘创建一个文件用于存储虚拟主机的所有数据,变更该文件到其他硬...
2018-09-05 21:25:27 2594 1
原创 Spark、Python spark、Hadoop简介
Spark、Python spark、Hadoop简介Spark简介1、Spark简介及功能模块Spark是一个弹性的分布式运算框架,作为一个用途广泛的大数据运算平台,Spark允许用户将数据加载到cluster集群的内存中储存,并多次重复运算,非常适合用于机器学习算法。Spark的核心是RDD(Resilient Distributed Dataset)弹性分布式数据集,...
2018-09-05 18:10:21 6747
StumbleUpon Evergreen 数据集
2018-09-10
用于构造决策树的小数据集
2018-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人