2019年04月_NoOne-csdn

原创 pysaprk-StorageLevel()

pyspark.StorageLevel(useDisk, useMemory, useOffHeap, deserialized, replication=1)

2019-04-24 14:38:10 730

原创 spark-ml函数 VectorAssembler()

from pysaprk.ml.feature import VectorAssembler()A feature transformer that merges multiple columns into a vector column.合并几个列到一个向量列from pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature impo...

2019-04-23 15:51:19 4252

原创 This behavior can be adjusted by setting 'spark.debug.maxToStringFields' in SparkEnv.conf.

def create_spark(): spark = SparkSession. \ builder.master('local'). \ appName('pipelinedemo'). \ getOrCreate() return spark 报错：WARN NativeCodeLoader:62 - Unabl...

2019-04-23 14:56:13 2179

转载机器学习-LogisticRegression逻辑回归算法

logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。例如，探讨引发疾病的危险因素，并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例，选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌，值为“是”或“否”，自变量就可以包括很多了，如年龄、性别、饮食习惯、幽门螺杆菌感...

2019-04-22 12:05:31 794

原创 spark Vectors.dense()和Vectors.sparse() 密集向量和稀疏向量

MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量.稀疏向量和密集向量都是向量的表示方法密集向量和稀疏向量的区别密集向量的值就是一个普通的Double数组而稀疏向量由两个并列的数组indices和values组成例如：向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0...

2019-04-22 11:04:24 13467 1

转载 Spark机器学习之Pipeline（Python）

转自Spark机器学习之Pipeline（Python）机器学习库（MLlib）指南MLlib是Spark的机器学习（ML）库。它的目标是使实用的机器学习可扩展和容易。它提供了一个高水平的工具，如：ML算法：常见的学习算法，如分类，回归，聚类和协同过滤特征：特征提取和选择，变换，降维管道：用于构建，评估和调整ML管道的工具持久性：保存和加载算法，模型和管道工具：线性代数，统计，数据...

2019-04-22 10:03:48 7546

原创 'SparkSession' object has no attribute '_gateway'(待解决)

背景：源码def save_to_db(df,table,flag=0): if flag==0: df.write.jdbc(url=url, table=table, properties={'driver':driver,"user": user, "password": password}) else: df.write.jdb...

2019-04-16 15:39:59 2912 1

原创 spark 总结（比较详细）

参考 http://www.cnblogs.com/tsxylhs/p/7427874.htmlhttps://www.cnblogs.com/qingyunzong/p/8886338.htmlSpark 特点高效性运行速度提高100倍。Apache Spark使用最先进的DAG调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能。易用性Spark支持Java、Pyt...

2019-04-12 20:43:12 419

转载 Hbase架构介绍

参考链接：https://www.jianshu.com/p/569106a3008fHBase原理深入解析（一）----HBase架构总览1 Hbase 简介Hbase是Hadoop Database的简称，Hbase项目是由Powerset公司的Chad Walters和Jim Kelleman在2006年末发起，根据Google的Chang等人发表的论文“Bigtable：A Di...

2019-04-10 19:57:07 371

原创 python 模块bisect

bisect是 python 的内置模块，主要用来排序方法：bisect.bisect(a, x, lo=0, hi=None)bisect.bisect_left(a, x, lo=0, hi=None)bisect.bisect_right(a, x, lo=0, hi=None)bisect.insort(a, x, lo=0, hi=None)bisect.insort_le...

2019-04-10 14:14:05 17389 1

原创 python小知识必知必会

1 Python ord() 函数ord() 函数是 chr() 函数（对于8位的ASCII字符串）或 unichr() 函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的 ASCII 数值，或者 Unicode 数值，如果所给的 Unicode 字符超出了你的 Python 定义范围，则会引发一个 TypeError 的异常。...

2019-04-10 11:41:05 130

原创 python中collections.namedtuple

collections是Python内建的一个集合模块，提供了许多有用的集合类。collections.namedtuple是一个工厂方法，它可以动态的创建一个继承tuple的子类。跟tuple相比，返回的子类可以使用名称来访问元素。namedtuple是一个函数，它用来创建一个自定义的tuple对象，并且规定了tuple元素的个数，并可以用属性而不是索引来引用tuple的某个元素。这样一来...

2019-04-10 11:00:12 1346 1

原创 [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate

背景：安装nltk资料库报错如下solution:参考添加链接描述重新执行download()解决

2019-04-10 09:18:05 6181

转载 spark 2.X 疑难问题汇总(转载)

spark 2.X 疑难问题汇总spark master和spark worker挂掉application恢复问题首先分5中情况：1，spark master进程挂掉了2，spark master在执行中挂掉了3，spark worker提交任务前全部挂掉了4，spark worker在执行application过程中挂掉了5，spark worke...

2019-04-03 09:48:08 500

花木兰