排序:
默认
按更新时间
按访问量

pyspark的使用和操作(基础整理)

转:https://blog.csdn.net/cymy001/article/details/78483723 Spark提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。  有关Spark的基本架构介绍参考http://blog.c...

2018-08-14 15:21:20

阅读数:7

评论数:0

【spark】常用转换操作:keys 、values和mapValues

转载:https://www.cnblogs.com/zzhangyuhang/p/9001608.html 1.keys 功能:   返回所有键值对的key 示例 1 2 3 4 val list = List("...

2018-08-14 15:06:09

阅读数:1

评论数:0

python2.7与python3差异之ypeError: 'filter' object is not subscriptable

def loadRatings(ratingsFile): """ 载入得分 """ if not isfile(ratingsFile): ...

2018-08-14 14:00:49

阅读数:2

评论数:0

1.NameError:name ‘xrange’ is not defined/ 2 “long” not defined

差异1.: 运行某代码时,报错: NameError:name ‘xrange’ is not defined 原因: 在Python 3中,range()与xrange()合并为range( )。  我的python版本为python3.5。 解决办法: 将xrange( )函数全部...

2018-08-14 12:15:25

阅读数:2

评论数:0

pyspark-快速开始

转载:https://blog.csdn.net/wc781708249/article/details/78260749 参考地址: 1、http://spark.apache.org/docs/latest/quick-start.html 2、https://github.com/ap...

2018-08-13 22:07:06

阅读数:3

评论数:0

提醒是要对预测输出y做出ravel()转换

转载:https://blog.csdn.net/hqh131360239/article/details/79169188 D:\Python27\lib\site-packages\sklearn\utils\validation.py:578: DataConversionWarning:...

2018-08-13 16:36:06

阅读数:2

评论数:0

Spark学习之向量--索引变换(VectorIndexer)

转载:http://www.cnblogs.com/soyo/p/7763845.html 特征变化--->特征向量中部分特征到类别索引的转换(VectorIndexer) VectorIndexer: 倘若所有特征都已经被组织在一个向量中,又想对其中某些单个分量进行处...

2018-08-13 15:21:02

阅读数:77

评论数:0

PCA主成份分析(Spark 2.0)

转载:https://blog.csdn.net/qq_34531825/article/details/52347220 PCA在Spark2.0用法比较简单,只需要设置:  .setInputCol(“features”)//保证输入是特征值向量  .setOutputCol(“pcaFea...

2018-08-13 14:40:56

阅读数:19

评论数:0

Spark-ML 线性回归 LinearRegression

转载:https://blog.csdn.net/qq_24734217/article/details/75476729 Spark-ML 线性回归 LinearRegression (1) LinearRegression参数详述: 正则化参数-Regparam:(Double)默认...

2018-08-13 10:15:24

阅读数:21

评论数:0

理解n-gram模型

参考:https://blog.csdn.net/sxhlovehmm/article/details/41252125 数据稀疏的解释:假设词表中有20000个词,如果是bigram model(二元模型)那么可能的2-gram就有400000000个,如果是trigram(3元模型),那么可...

2018-08-13 08:24:12

阅读数:19

评论数:0

Spark MLlib调试笔记之二:AttributeError: 'DataFrame' object has no attribute 'map'

  avgAge.collect() Out[6]: [Row(home='Mechelen', mean=53.0), Row(home='Leuven', mean=42.0), Row(home='Brussels', mean=33.5)] 因为SchemaRDD也是一种RDD...

2018-08-12 16:20:28

阅读数:17

评论数:0

Spark RDD 练习题(python)之 牛顿法求平方根

from pyspark import SparkContext sc = SparkContext('local', 'pyspark') 牛顿法求平方根 我们知道牛顿法求 n−−√ (达到eps准确度)的算法是这样的:**  * 给定一个初始值 x=1.0.  * 求x和n/x的平均(x+n/...

2018-08-12 14:36:27

阅读数:9

评论数:0

SPARK程序调试之一:AttributeError: 'SQLContext' object has no attribute 'inferSchema'

schemaRDD = sqlCtx.inferSchema(rdd) schemaRDD.registerTempTable("people") -------------------------------------------------------...

2018-08-12 09:59:21

阅读数:10

评论数:0

Anaconda中配置Pyspark的Spark开发环境--window

转载:https://www.cnblogs.com/jackchen-Net/p/6667205.html 要点导航 1.windows下载并安装Anaconda集成环境 2.在控制台中测试ipython是否启动正常 3.安装JDK 4.安装Spark并配置环境变量 5.Pyspar...

2018-08-12 08:32:35

阅读数:11

评论数:0

Linux Ubuntu下Jupyter Notebook的安装

转载:https://www.cnblogs.com/bxyan/p/7203966.html Jupyter Notebook, 以前又称为IPython notebook,是一个交互式笔记本, 支持运行40+种编程语言. 可以用来编写漂亮的交互式文档. 安装步骤:   pip in...

2018-08-12 07:18:14

阅读数:9

评论数:0

Linux下安装anaconda

转载:https://blog.csdn.net/xiaerwoailuo/article/details/70054429 1.下载(直接到清华镜像下载) 下载链接,选择合适的版本,我试了几个,选择了一个下载最快的,原谅我的渣渣网速,  官网在国外,必须找镜像,不然很慢很慢,,,,,,   此...

2018-08-12 07:15:50

阅读数:14

评论数:0

Ubuntu 14.04安装JDK1.8.0_25与配置环境变量

转载:https://www.linuxidc.com/Linux/2015-01/112030.htm 以下是Ubuntu 14.04安装JDK1.8.0_25与配置环境变量过程笔记。 1、源码包准备: 首先到官网下载jdk,http://www.oracle.com/technetwor...

2018-08-11 21:27:07

阅读数:27

评论数:0

xgboost使用调参

转载:http://www.mamicode.com/info-detail-2348559.html https://blog.csdn.net/q383700092/article/details/53763328   github:https://github.com/dmlc/xgb...

2018-08-11 18:41:45

阅读数:11

评论数:0

Ubuntu 命令行中用 GPU 运行 Python 程序

转载:https://blog.csdn.net/yueyinlizun/article/details/80402503 在终端执行 Python 程序时可以使用下面的命令: CUDA_VISIBLE_DEVICES=1 python your_file.py 这样在跑你的网络之前,告诉程...

2018-08-11 18:26:49

阅读数:8

评论数:0

欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响

转载:https://blog.csdn.net/Dawei_01/article/details/80846371 目中出现了二分类数据不平横问题,研究总结下对于类别不平横问题的处理经验: 1:为什么类别不平横会影响模型的输出: 许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为...

2018-08-10 15:36:27

阅读数:7

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭