偶白-CSDN博客

原创 SparkSQL读取MySQL数据库（pyspark版）

首先启动数据库，mysql -u root -p创建spark数据库，和一张student表测试使用mysql> create database spark;Query OK, 1 row affected (0.02 sec)mysql> use spark;Database changedmysql> create table student (id int(4), name char(20), gender char(4), age int(4));Query O

2022-03-25 10:16:05 4659

原创 java.sql.SQLException: The server time zone value ‘ÖÐ¹ú±ê×¼Ê±¼ä‘ is unrecognized or represents more

连接mysql出现报错py4j.protocol.Py4JJavaError: An error occurred while calling o28.load.: java.sql.SQLException: The server time zone value 'ÖÐ¹ú±ê×¼Ê±¼ä' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver

2022-03-25 10:06:38 3294

原创 pyspark使用流程以及遇到的问题（windows版）

本文所使用方式为在windows独立环境中进行pyspark的开发，如需链接hdfs还是要借助虚拟机的，主要包含以下几个步骤一、windows中的环境配置1、java的安装这里建议大家选择版本较低的java版本，如果版本较高可能会出现不兼容问题，Java和hadoop的安装流程我之前的文章里面有，大家可以看一下，这里附上链接hadoop安装2、hadoop的安装hadoop安装链接同上3、scala的安装先下载scala的压缩包,依然是官网地址,建议2.11的版本,因为后续我们使用的s

2022-03-23 15:31:57 7775

原创 python3.7配置（linux版）

文章目录Python3.7安装**注意**一定严格按照流程，最好配置前备份虚拟机，python安装后出问题，卸载比较麻烦1、安装依赖包2、下载python3.7.0源码，根据需求下载1）下载2）解压Python-3.7.0.tgz3）建立一个空文件夹，用于存放python3程序4）执行配置文件，编译，编译安装5）建立软连接6）测试一下python3Python3.7安装注意一定严格按照流程，最好配置前备份虚拟机，python安装后出问题，卸载比较麻烦1、安装依赖包1）首先安装gcc编译器，gcc有些

2022-03-23 15:02:33 2692

原创 Spark单机配置（linux版）

文章目录scala安装一、软件解压二、配置环境变量三、验证Spark安装一、解压二、添加环境变量三、修改启动变量文件四、启动Spark五、验证scala安装本文中所有软件都以单机模式配置，提供测试学习使用一、软件解压cd /usr/local/soft/下载压缩包https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz解压 tar -zxvf scala-2.13.1.tgz重命名mv scala-

2022-03-23 10:33:23 1061

原创 pyspark导入，解决pyspark无法直接使用问题（linux版）

文章目录scala安装一、软件解压二、配置环境变量三、验证Spark安装一、解压二、添加环境变量三、修改启动变量文件四、启动Spark五、验证Python3.7安装**注意**一定严格按照流程，最好配置前备份虚拟机，python安装后出问题，卸载比较麻烦1、安装依赖包2、下载python3.7.0源码，根据需求下载1）下载2）解压Python-3.7.0.tgz3）建立一个空文件夹，用于存放python3程序4）执行配置文件，编译，编译安装5）建立软连接6）测试一下python3Pycharm破解解压压缩包

2022-03-23 10:31:33 4612

原创 Spark基础-RDD、DataFrame、DataSet转换方式以及异同

文章目录1. RDD转换成DataFrame的两种方式2.DataSet的创建3.类型之间的转换总结4.RDD、DataFrame、DataSet三者的共性与区别共性：区别：RDD:DataFrame:Dataset:1. RDD转换成DataFrame的两种方式rdd可以通过下面这种方式得到DataFrame：valpeopleDF = peopleRdd.map(_.split("")).filter(_.length==2).map(paras=>(paras(0),paras(1).t

2022-03-04 09:28:35 3313

原创 spark-streaming-kafka配置流程（idea版）

1.创建maven项目首先创建一个maven工程，具体流程可查看这篇文章创建Maven项目2.接下来是pom文件的编辑这里我们用的spark版本是2.4.5，scala是2.12，所以要选择spark-streaming-kafka-0-10_2.12<dependencies> <dependency> <groupId>org.apache.spark</groupId> <a

2022-03-01 09:50:08 2166

原创 maven项目jar包缺失

创建的maven工程有些jar包无法在pom文件中直接下载，怎么办可以尝试一下手动导入，访问maven的官网maven官网直接搜索自己想要下载的jar包名比如spark-streaming-kafka找到自己需要的版本，直接进行下载有了jar包之后，接下来手动导入到我们的项目中以idea为例，点击project structure加号里面点击java，这里最好把需要添加的jar包放在纯英文的路径下，手动选择我们下载的jar包就可以了添加完记得apply应用...

2022-03-01 09:32:16 2164

原创 SLF4J-jar包冲突解决方法

2022-02-25 11:08:38 2082

原创 linux关闭防火墙

禁用防火墙：systemctl stop firewalld.servicesystemctl disable firewalld.service查看防火墙状态: systemctl status firewalld重启网络服务：service network restart 或systemctl restart network或者重启系统：reboot进行测试：ping www.baidu.com...

2022-02-25 10:46:52 714

原创 knowstname问题解决方法

在配置hadoop集群的过程中，如果遇到 Name or service not knowstname *****这种问题，大概率是配置文件出错，如图显示的是datanodes节点的启动问题，那么问题应该是在workers文件中遇到这个报错信息，可以在linux中检查自己的workers文件检查workers的文件格式如果格式为doc，需要更改文件格式为unix先使用yum指令下载工具yum install -y dos2unix下载完成后，改变workers文件格式dos2unix w

2022-02-25 10:45:50 1249

原创基于python的阴阳师后台辅助

本文为搬运，我自身并没有使用过，大家感兴趣可以试一试Python 版本：Python 3.8模拟器：雷电模拟器（推荐）｜网易 MuMu模拟器分辨率：1024*576网易 MuMu 显卡渲染模式：兼容（OpenGL）兼容 Windows 系统和 MacOS 系统（不太友好，发热严重且需要重新截图）个人使用顺序每周首先挂秘闻副本，每天三大地域鬼王，结界突破券满了挂突破，突破用完了挂御魂，大概 80-100 次左右御魂结界突破券会满，满了继续挂突破…思路：利用 adb 截图后，使用 open

2022-02-24 16:51:30 891

原创问题解决Exception in thread “main“ java.lang.NoClassDefFoundError: scala/Product$class

在使用idea进行spark开发时遇到如下报错Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class at org.apache.spark.streaming.Duration.<init>(Duration.scala:22) at org.apache.spark.streaming.Seconds$.apply(Duration.scala:90) at streamingtes

2022-02-24 15:45:40 2859 3

原创自然语言处理基础技术工具篇之TextBlob

TextBlob简介TextBlob是一个用Python编写的开源的文本处理库。它可以用来执行很多自然语言处理的任务，比如，词性标注，名词性成分提取，情感分析，文本翻译，等等。Github地址：https://github.com/sloria/TextBlob官方文档：https://textblob.readthedocs.io/en/dev/TextBlob实战安装：pip install textblob如果下载速度太慢，可以配置国内源安装：pip install textblob

2022-02-24 14:20:33 5426 7

原创 MySQL8安装配置流程

1.进入地址：https://dev.mysql.com/downloads/mysql/下载mysql-8.0.11-winx642.解压zip包，并将解压文件放入一个文件夹下，如图：3.配置环境变量（目的是为了避免在CMD窗口下操作时反复切换路径）在Path下添加解压的mysql的bin目录路径如：D:\Program Files\mysql-8.0.11-winx64\bin4.编写配置文件我们发现解压后的目录并没有my.ini（或my-default.ini）文件，没关系可以自行

2022-02-24 14:17:06 616

原创 Spark在不同集群中的运行架构

Spark在不同集群中的运行架构Spark注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、YARN-Client模式或者YARN-Cluster模式。Spark的各种运行模式虽然在启动方式、运行位置、调度策略上各有不同，但它们的目的基本都是一致的，就是在合适的位置安全可靠的根据用

2022-02-24 08:49:42 445

原创报错：Failed to locate the winutils binary in the hadoop binary path解决方案

在windows中运行我懂maven项目出现报错Failed to locate the winutils binary in the hadoop binary path这代表这你的电脑上没有配置hadoop，具体可参考hadoop的配置文档：windows中hadoop配置流程按照流程配置完毕之后，重启一下电脑，就可以解决问题了...

2022-02-23 14:30:13 905

原创 windows安装hadoop流程

在windows中安装hadoop其实很简单，下面我们一起来看一下首先我们要下载一个hadoop的压缩包，hadoop-3.2.2这是hadoop的官网下载地址，也可以自行选择其他版本下载完成之后，解压到本地的文件夹中这里，因为我们安装的hadoop是安装在windows中的，所以我们需要在bin目录中添加一些新的文件，文件随着hadoop的版本变化，我把自己收集的压缩包分享给大家，大家可以自行下载各个版本winutils-master直接替换bin目录即可接下来，我们在电脑上配置一

2022-02-23 14:28:53 5840 2

原创修改spark中显示日志等级

当我们运行spark-shell或者是开发spark项目时，运行结果总是会伴随很多的日志，影响我们对结果的查看Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties22/02/23 11:24:49 INFO SparkContext: Running Spark version 2.4.522/02/23 11:24:50 INFO SparkContext: Submitted applicat

2022-02-23 11:30:23 6824 3

原创 Spark快速上手-创建Maven项目

创建Maven项目1.1 增加Scala插件Spark由Scala语言开发的，所以本课件接下来的开发所使用的语言也为Scala，咱们当前使用的Spark版本为2.4.5，默认采用的Scala版本为2.12，所以后续开发时。我们依然采用这个版本。开发前请保证IDEA开发工具中含有Scala开发插件在idea的setting中，找到plugins,搜索scala，并进行安装，如果不安装插件，我们是无法在idea中创建scala文件的1.2 增加依赖关系修改Maven项目中的POM文件，增加Spark

2022-02-23 11:22:38 2505

OWBY_Phantomhive的博客