![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 84
Andy_shenzl
你看不懂的世界,背后都是原理
展开
-
spark_NLP-word2vec
序列嵌入每一天都有数百万人访问企业网站,并且每个人都会采取一些列不同的步骤以便搜寻到合适的信息和产品,不过,其中由于某些原因大多数人没有找到合适的页面而感到失望,只有极少数人能在网页中找到自己想要的内容。在这类情形下,就会变得难以弄清潜在客户实际上是否获得了想要搜寻的信息。另外,也无法对这些浏览者的个体操作进行交叉对比,因为每个人都完成了一组不同的操作。那么,我们如何在能知道与这些操作相关的更多信息并且对这些访客进行交叉对比呢?序列嵌入是一种强大的方式,能为我们提供灵活性,不仅可以对比任意两个单独浏览者原创 2020-07-27 14:16:18 · 360 阅读 · 0 评论 -
spark_NLP_(1)
NLP-Natural Language Processing:自然语言处理从机器学习角度讲,需要执行五个步骤:读取预料标记化清理/移除通用词词干提取转化成数值格式基本步骤简述语料语料被称为文本文档的完整集合,例如,假设又一个集合中有数千封邮件,他们需要处理和分析以供使用,这组电子邮价就被称为语料,因为里面包含了所有的文本文档。标记化将制定语句或文本文档的词语集合划分成单独/独立语句的方法成为标记化。这会移除不必要的字符,例如标点符号,如下:输入:He really like原创 2020-07-20 16:20:05 · 349 阅读 · 0 评论 -
pyspark_协同过滤
协同过滤协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。关于协同过滤的一个经典的例子就是看电影。如果你不知道哪一部电影是自己喜欢的或者评分比较高的,那么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。而在问的时候,肯定都习惯于问跟自己口味差不多的朋友,这就是协同过滤的核心思想。因此,协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的东西组织成一个排序的目录推原创 2020-07-17 14:20:43 · 1417 阅读 · 0 评论 -
pyspark_聚类分析
数据集本次使用得到数据集为莺尾花数据集-iris数据集,共有150条记录,5列[花萼长度、花萼宽度、花瓣长度、花瓣宽度、花朵类别],共有三种类别,每种类别50条记录。先导入数据df=spark.read.csv('iris_dataset.csv',inferSchema=True,header=True)print((df.count(),len(df.columns)))df.printSchema()root|-- sepal_length: double (nullable = t原创 2020-07-15 15:15:47 · 1926 阅读 · 1 评论 -
pyspark-随机森林
导入数据#先创建一个spark对象from pyspark.sql import SparkSessionspark=SparkSession.builder.appName('random_forest').getOrCreate()#导入数据df=spark.read.csv('affairs.csv',inferSchema=True,header=True)EDA查看数据结构print((df.count(),len(df.columns)))df.printSchema()原创 2020-07-14 15:48:27 · 968 阅读 · 4 评论 -
pyspark逻辑斯蒂回归
数据集数据集共包含20000行和6列数据集是一家运动商品零售网站的在线用户有关的信息,这些数据集包括用户的国家、使用的平台、年龄、新访客/老访客,还有就是网该网站上浏览的网页数量,以及客户最终是否购买产品的信息数据集探索研究产看数据结构print((df.count(),len(df.columns)))#列名及数据类型df.printSchema()#查看数据内容df.show(5)#数据的统计指标df.describe().show()可以看到,访客平均年龄是28岁,他们原创 2020-07-14 11:14:13 · 615 阅读 · 0 评论 -
spark数据处理
主要使用jupyter notebook or databricks导入数据from pyspark.sql import SparkSession#创建一个SparkSession对象来调用spark,如果是在交互式环境中不需要此步骤,可以直接使用sparkspark = SparkSession.builder.appName('data_processing').getOrCreate()#本地导入数据df=spark.read.csv('iris.csv',inferSchema=Tru原创 2020-07-13 17:13:31 · 780 阅读 · 0 评论 -
spark_sql
sharkshark即Hive on spark,为了实现于Hive兼容,shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MaoReduce作业替换成了Spark作业,通过Hive的HiveQL解析,把HiveQL翻译成Spark上的RDD操作shark问题:完全依赖于Hive,不方便添加新的优化策略spark是线程级并行,而MapReduce是进程级并行,因此,spark在兼容Hive的实现上存在线程安全问题,导原创 2020-07-08 16:46:36 · 223 阅读 · 0 评论 -
键值对
创建键值对文件加载lines=sc.textFile('/Users/admin/Desktop/word.txt')words=lines.flatMap(lambda line:line.split(" ")) words.foreach(print)sparkisisgoodbettersparkisfastpairRDD=words.map(lambda word:(word,1)) pairRDD.foreach(print)(‘spark’, 1)(‘原创 2020-07-08 16:42:57 · 578 阅读 · 0 评论 -
RDD基础操作
创建RDD从文件系统加载.textFile()line=sc.textFile(’/Users/admin/Desktop/word.txt’)sc=SparkContextline.foreach(print)并行集合(数组)创建parallelizearray=[1,2,3,4,5]rdd=sc.parallelize(array)rdd.foreach(print)rdd操作转换操作只记录轨迹,不进行计算filter:过滤lines=sc.textFile(’/Us原创 2020-07-06 16:31:59 · 1078 阅读 · 0 评论