大数据
jingyi130705008
你已经很好了,只是你还可以更好。如有疑问,可加qq 1339087315联系~
展开
-
java.io.IOException: No space left on device
java.io.IOException: No space left on device原因是 /root/tmp 空间不够了,可以制定自己的tmp目录, 在conf/spark-default.conf 里加上 “spark.local.dir /home/XXX/你自己的目录” 即可。原创 2021-03-22 21:01:09 · 8326 阅读 · 0 评论 -
PySpark dataframe 按照某列排序
df.orderBy('column_name', ascending=False)原创 2021-02-26 19:28:34 · 4739 阅读 · 0 评论 -
利用spark迁移cassandra集群数据
目前工作中遇到需求,需要将一个cassandra集群的数据迁移到另一个cassandra集群。从网上查询发现有两个解决方案,如下1. 读写的时候切换CassandraConnectorimport com.datastax.spark.connector._import com.datastax.spark.connector.cql._import com.datastax.spark.connector.rdd.CassandraTableScanRDDimport org.apa原创 2020-11-17 16:14:33 · 457 阅读 · 0 评论 -
spark another attempt succeeded
执行spark任务发现 提示信息“another attempt succeeded”,这是由于设置了spark.speculation为true,该参数的含义如下:参考:If a task appears to be taking an unusually long time to complete, Spark may launch extra duplicate copies of that task in case they can complete sooner. This is r.原创 2020-11-16 14:45:27 · 2028 阅读 · 0 评论 -
Hadoop安装
http://dblab.xmu.edu.cn/blog/install-hadoop/原创 2020-10-27 15:46:37 · 130 阅读 · 0 评论 -
PySpark将dataframe写入本地文件,只生成文件夹含有SUCCESS
1. 代码results = res.rdd\ .map(lambda word: (word[0].replace(u"(", u"(").replace(u")", u")"), word[1], word[2]))\ .filter(lambda word: word[0] in companys_list)\ .map(lambda word: (companys_dic.get(word[0], word[0]),word[1],原创 2020-08-26 11:16:52 · 5443 阅读 · 0 评论 -
pyspark 模块化代码
期望实现的功能:建立一个模块,计算出两点间的直线距离(单位为英里),并且将计算结果从英里转换成千米。1. 创建模块文件组织结构如下:setup.py: 打包用户自定义的功能模块from setuptools import setupsetup( name='PySparkUtilities', version='0.1dev', packages=['...原创 2019-11-12 14:30:10 · 608 阅读 · 0 评论 -
PySpark 之 GraphFrames简介
GraphFrames可以快速轻松地分析以图形结构组织的数据,边和顶点由DataFrame表示,允许我们存储每个节点和边的任意数据。简单示例如下:# encoding=utf-8import osimport pysparkfrom pyspark.sql import SparkSessionfrom pyspark.sql import types as typfrom p...原创 2019-11-11 19:05:44 · 3832 阅读 · 0 评论 -
pyspark ml 中LDA简单示例
# encoding=utf-8import osimport pysparkfrom pyspark.sql import SparkSessionimport pyspark.sql.types as typimport pyspark.ml.feature as ftimport pyspark.ml.clustering as clusfrom pyspark.ml imp...原创 2019-11-07 14:44:11 · 1613 阅读 · 0 评论 -
pyspark ml 中LogisticRegression的使用
前置概念ML包公开了三个主要的抽象类:转换器(transformer)、评估器(estimator)和管道(pipeline)。转换器,通常通过将一个新列附加到DataFrame来转换数据,其常见参数有inputCol(所要转换列的名称,默认为features)和outputCol(转换后新增的新列名称).评估器,可以理解为需要评估的统计模型,常用来做分类、回归、聚类等。管道,用来...原创 2019-11-06 19:13:33 · 2143 阅读 · 0 评论 -
新版spark-2.2.0安装教程(MAC)
亲测可用:https://blog.csdn.net/y999666/article/details/78052253原创 2019-09-24 15:28:51 · 520 阅读 · 0 评论 -
pyspark统计单词频数(加权)
0.数据格式act_num_by_type: 1:63,3:1,4:2,2:5 feed_fenci: 一/m 到/v 五颗/m 星/n 就/d 开始/v 输/v 1.利用累加器py程序import sysimport osfrom pyspark.sql import SparkSessionfrom pyspark.accumulators impor...原创 2018-11-28 20:13:54 · 1637 阅读 · 0 评论 -
简述hadoop相关知识点
写在前面:最近花了点时间了解了hadoop的运行机制,于是在此做个笔记,由于水平有限,有错请指出,谢谢!1. 安装hadoop对于工程类的东西,本人小白一个,从安装虚拟机到配置jdk、安装hadoop前后花了三四天的时间,在踩过无数坑之后,终于把wordcount 小例子正确执行,这里对于第一次搭建hadoop环境的同学,给一些我的建议。(1)参考网上的安装教程时,一定要注意操作系统的版本、had...原创 2018-05-25 11:40:59 · 623 阅读 · 0 评论