自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 问答 (1)
  • 收藏
  • 关注

原创 pyspark系列5-Spark SQL介绍

文章目录一.Spark SQL的概述1.1 Spark SQL 来源1.2 从代码看Spark SQL的特点1.3 从代码运行速度看来看Spark SQL二.Spark SQL数据抽象2.1 DataFrame2.2 Dataset三.Spark SQL 操作数据库3.1 Spark SQL操作Hive数据库3.1.1 Spark1版本使用方法3.1.2 Spark2版本使用方法3.2 Spark SQL操作MySQL数据库3.2.1 Spark1的写法3.2.2 Spark2的写法参考:一.Spark

2021-04-29 14:06:13 5039 3

原创 pyspark系列4-spark内核概述

文章目录一.Spark核心组件1.1 Cluster Manager(Master,ResourceManager)1.2 Worker(worker,NodeManager)1.3 Driver1.4 Executor1.5 Application二.Spark on Yarn3.1 Yarn的基本架构3.2 Spark on Yarn3.2.1 YARN-Cluster模式3.2.2 YARN-Client模式3.3 Spark Job参考:一.Spark核心组件SparkContext将资

2021-04-28 14:14:12 4473 4

原创 pyspark系列3-spark核心之RDD介绍

文章目录一.RDD概念1.1 RDD的特点1.2 RDD的核心属性二.操作RDD2.1 PySpark介绍2.2 PySpark环境配置2.3 PySpark使用2.3.1 初始化Spark2.3.2 初始化RDD2.3.3 RDD操作2.3.3.1 RDD的map操作2.3.3.1 RDD使用函数参考:一.RDD概念RDD(resilient distributed dataset ,弹性分布式数据集),是 Spark 中最基础的抽象。它表示了一个可以并行操作的、不可变得、被分区了的元素集合。用户不需

2021-04-27 15:11:03 5170

原创 pyspark系列2-linux安装pyspark

文章目录一.安装Java和Scale1.1 安装java1.2 安装Scala1.2.1 安装1.2.2 配置1.2.3 启动二.安装Apache Spark三.pyspark案例参考:一.安装Java和Scale1.1 安装java因为我这个环境是CDH 6.3.1版本,已经安装了JDK,此次略过。[root@hp1 ~]# javac -versionjavac 1.8.0_1811.2 安装Scala1.2.1 安装代码:官网地址:https://www.scala-lang.or

2021-04-26 16:24:05 4948 2

原创 pyspark系列1-spark概述

文章目录一.大数据技术栈二.Spark概述2.1 MapReduce框架局限性2.2 Hadoop生态圈中的各种框架2.3 Spark2.3.1 Spark的优势2.3.2 Spark特点2.3.3 SPRAK 2 新特性一.大数据技术栈如下图,当前的一个大数据技术栈:如上所示:数据采集,一般通过Sqoop或Flume将关系型数据库数据同步到hadoop平台。底层存储,采集到的数据存储在hdfs上,分布式进行存储。资源调度,hadoop的资源调度就是yarn,用来协调各个集群节点的资源。底

2021-04-25 13:53:29 4838 2

原创 Python案例篇3-pip install 失败 Command “python setup.py egg_info“ failed with error code 1

一.问题描述最近在自学pyspark,想本地通过pycharm来编辑pyspark脚本,运行的时候,提示没有pyspark模块,于是通过pycharm安装了pyspark(最新版本)。而且这个安装到了远程服务器上,真的坑奈何我安装的是CDH 6.3.1版本,然后spark版本是 2.4.0-cdh6.3.1,然后最新版本是3.0.2的新的pyspak程序,都未记录到 History Server服务上。于是首先通过pip卸载pyspark 3.0.2版本,然后安装pyspark 2.4.0版本

2021-04-23 13:44:53 15517

原创 Python案例篇2-pycharm import cx_Oracle模块引发的No module named ‘custom_exceptions‘

一.问题描述最近在自学python,然后用到Oracle数据库,于是开始学习cx_Oracle模块。代码:import cx_OracledbConnect_host= cx_Oracle.makedsn('mylocalhost','myportnumber',sid='orcl')conn = cx_Oracle.connect('system', 'mypassword',dbConnect_host)print(conn)c = conn.cursor()print(e)报错信息

2021-04-22 14:25:00 5929 2

原创 Python案例篇1-pycharm ModuleNotFoundError: No module named ‘xlsxwriter‘

一.问题描述已经用pip 安装了xlsxwriter模块,但是pycharm使用的时候,依旧会报错ModuleNotFoundError: No module named 'xlsxwriter'命令行里面import是不报错的:使用pycharm运行的时候报错:二.解决方案pycharmFile -> Settings -> project:项目名 -> Project Interpreter然后选择 + ,在该项目下安装xlsxwriter即可[外链图片转存失败

2021-04-22 14:12:13 18906 4

原创 Python常用模块15-python的configparser模块

一.Python的configparser模块介绍Python的configparser模块提供了它实现一种基本配置语言 ConfigParser 类,这种语言所提供的结构与 Microsoft Windows INI 文件的类似。 你可以使用这种语言来编写能够由最终用户来自定义的 Python 程序。从动作角度,分位以下几步走(本质是读,写, 查):建立配置对象-config调用读方法-read(filename)查询所有section的名字列表查询指定section的k

2021-04-21 17:47:26 4494

原创 Python常用模块14-python的shutil模块

文章目录一.shutil模块介绍1.1 目录和文件操作1.2 归档操作二.shutil模块实例2.1 shutil.copyfileobj2.2 shutil.copyfile2.3 shutil.copymode2.4 shutil.copystat2.5 shutil.copy2.6 shutil.copy22.7 shutil.copytree2.8 shutil.rmtree2.9 shutil.move2.10 shutil.make_archive()2.11 shutil.disk_usage

2021-04-20 13:49:56 5373 1

原创 Python常用模块13-python的cx_Oracle模块

文章目录一.cx_Oracle模块介绍1.1 pip安装cx_Oracle模块1.2 pycharm安装cx_Oracle模块1.3 cx_Oracle模块常用语句二.cx_Oracle实例参考:一.cx_Oracle模块介绍1.1 pip安装cx_Oracle模块pip安装C:\Users\Administrator>pip install cx_OracleCollecting cx_Oracle Using cached cx_Oracle-8.1.0-cp36-cp36m-win

2021-04-20 13:47:40 3711

原创 Python常用模块12-python的xlsxwriter模块(操作excel)

文章目录一.xlsxwriter模块1.1 xlsxwriter模块介绍1.2 xlsxwriter 实例1.2.1 创建一个简单的xlsx文件1.2.2 将指定格式的数据录入xlsx文件1.2.3 写入不同的类型的数据到xlsx1.2.4 将数据库查询出来的数据录入xlsx文件二.openpyxl模块读取excel文件参考:一.xlsxwriter模块1.1 xlsxwriter模块介绍在实际生产中,经常会用到excel来处理数据,虽然excel有强大的公式,但是很多工作也只能半自动化,配合pyth

2021-04-16 14:02:25 11090 3

原创 Python常用模块11-python的csv模块

文章目录一.CSV模块介绍二.csv模块实例2.1 将mysql查询到的数据导出到本地csv文件2.2 将本地csv文件导入到mysql数据库参考:一.CSV模块介绍CSV (Comma Separated Values) 格式是电子表格和数据库中最常见的输入、输出文件格式。在 RFC 4180规范推出的很多年前,CSV 格式就已经被开始使用了,由于当时并没有合理的标准,不同应用程序读写的数据会存在细微的差别。这种差别让处理多个来源的 CSV 文件变得困难。但尽管分隔符会变化,此类文件的大致格式是相似的

2021-04-16 13:54:23 3537 2

原创 Python常用模块10-Python的hashlib模块(加密md5)

一.hashlib模块介绍基于信息安全,经常需要将一些敏感信息进行加密处理,python 3 的hashlib模块就提供了加密功能。hashlib模块代替了Python2中的md5和sham模块,使用这个模块一般分为3步创建一个哈希对象,使用哈希算法命名的构造函数或通用构造函数hashlib.new(name[, data])使用哈希对象调用update()方法填充这个对象调用digest() 或 hexdigest()方法来获取摘要(加密结果)代码:import hashlibm1

2021-04-15 14:57:20 2985 1

原创 Python常用模块9-Python的json模块简介

文章目录一.Python3的json模块介绍二.Python json模块实例2.1 json与字典格式相互转换2.2 将json数据落地到实体表参考:一.Python3的json模块介绍在数据处理的过程中,经常遇到json格式的,那么python里面是如何处理json格式的数据呢?这里就要提到python的json模块了。json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串)json.dumps()函数是将一个Python数据类型列表进行js

2021-04-15 14:55:35 666 1

原创 Python常用模块8-Python的email模块简介

文章目录一.email - 电子邮件与 MIME 处理包二.发送邮件简要概述2.1 python发邮件所需要的基础包2.2 smtplib的用法2.3 email模块的详细理解和使用十.email案例参考:一.email - 电子邮件与 MIME 处理包email 包是一个用于管理电子邮件消息的库。 它 并非 被设计为执行向 SMTP (RFC 2821), NNTP 或其他服务器发送电子邮件消息的操作;这些是 smtplib 和 nntplib 等模块的功能。 email 包试图尽可能遵循 RFC,支

2021-04-14 16:00:29 8802 7

原创 Python常用模块7-Python的random模块简介

文章目录一Python的random模块介绍1.1 random.random()1.2 random.uniform(a,b)1.3 random.randint(a, b)1.4 random.randrange([start], stop[, step])1.5 random.choice(sequence)1.6 random.shuffle(x[, random])1.7 random.sample(sequence, k)参考一Python的random模块介绍Python中的random模

2021-04-14 15:59:09 1183 8

原创 Python系列22-Web应用程序-CentOS7下部署Django项目

详细步骤(下面步骤都是ROOT权限执行)文章目录一.部署Django项目前的准备1.1 更新系统软件包1.2 安装软件管理包和可能使用的依赖1.3下载并安装python31.4 查看Python3和pip3安装情况1.5 安装virtualenv ,建议大家都安装一个virtualenv,方便不同版本项目管理1.6 切换到/data/env/下,创建指定版本的虚拟环境1.7 虚拟环境里用pip3安django和uwsgi二.本地项目搬迁到服务器2.1 在项目目录下用下面的命令把当前的环境依赖包导出到req

2021-04-13 13:47:11 631 1

原创 Python系列21-Web应用程序-设置样式

文章目录一.设置样式1.1 设置项目“学习笔记”的样式1.1.1 应用程序django-bootstrap31.1.2 使用Bootstrap来设置项目“学习笔记”的样式1.1.3 修改base.html1.1.4 使用jumbotron设置主页的样式1.1.5 设置登录页面的样式1.1.6 设置new_topic 页面的样式1.1.7 设置topics页面的样式1.1.8 设置topic页面中条目的样式一.设置样式当前,项目“学习笔记”功能已齐备,但未设置样式,也只是在本地计算机上运行。在本博客中,我

2021-04-13 13:44:47 840

原创 Python系列20-Web应用程序-用户账户

文章目录一.用户账户介绍1.1 让用户能够输入数据1.1.1 添加新主题1.1.2 添加新条目1.1.3 编辑条目1.2 创建用户账户1.2.1 应用程序users1.2.2 登录页面1.2.3 注销1.2.4 注册页面1.3 让用户拥有自己的数据1.3.1 使用@login_required 限制访问1.3.3 只允许用户访问自己的主题1.3.4 保护用户的主题1.3.5 保护页面edit_entry1.3.6 将新主题关联到当前用户参考一.用户账户介绍Web应用程序的核心是让任何用户都能够注册账户并

2021-04-12 09:26:46 890

原创 Python系列19-Web应用程序-Django入门

文章目录一.Django入门1.1 建立项目1.1.1 制定规范1.1.2 建立虚拟环境1.1.3 安装virtualenv1.1.4 激活虚拟环境1.1.5 安装Django1.1.6 在Django中创建项目1.1.7 创建数据库1.1.8 查看项目1.2 创建应用程序1.2.1 定义模型1.2.2 激活模型1.2.3 Django管理网站1.2.4 定义模型Entry1.2.5 迁移模型Entry1.2.6 向管理网站注册Entry1.2.7 Django shell1.3 创建网页:学习笔记主页1.

2021-04-12 09:25:25 761 1

原创 Python系列18-数据可视化之使用api

文章目录一.使用api1.1 使用 Web API1.1.1 Git和GitHub1.1.2 使用API调用请求数据1.1.3 安装requests1.1.4 处理API响应1.1.5 处理响应字典1.1.6 概述最受欢迎的仓库1.1.7 监视API的速率限制1.2 使用Pygal可视化仓库1.2.1 改进Pygal图表1.2.2 添加自定义工具提示1.2.3 根据数据绘图1.2.4 在图表中添加可单击的链接1.3 Hacker News API参考一.使用api在博客中,你将学习如何编写一个独立的程序

2021-04-09 14:20:38 833

原创 Python系列17-数据可视化之下载数据

文章目录一.下载数据简介1.1 CSV文件格式1.1.1 分析CSV文件头1.1.2 打印文件头及其位置1.1.3 提取并读取数据1.1.4 绘制气温图表1.1.5 模块datetime1.1.6 在图表中添加日期1.1.7 涵盖更长的时间1.1.8 再绘制一个数据系列1.1.9 给图表区域着色1.1.10 错误检查1.2 制作世界人口地图:JSON格式1.2.1 下载世界人口数据1.2.2 提取相关的数据1.2.3 将字符串转换为数字值1.2.4 获取两个字母的国别码1.2.5 制作世界地图1.2.6 在

2021-04-09 14:15:45 794

原创 Python系列16-数据可视化之生成数据

文章目录一.生成数据1.1 安装matplotlib1.2 绘制简单的折线图1.2.1 修改标签文字和线条粗细1.2.2 校正图形1.2.3 使用scatter() 绘制散点图并设置其样式1.2.4 使用scatter() 绘制一系列点1.2.5 自动计算数据1.2.6 删除数据点的轮廓1.2.7 自定义颜色1.2.8 使用颜色映射1.2.9 自动保存图表1.3 随机漫步1.3.1 创建RandomWalk() 类1.3.3 绘制随机漫步图1.3.4 模拟多次随机漫步1.3.5 设置随机漫步图的样式1.3.

2021-04-08 14:04:39 1047

原创 Python系列15-外星人入侵项目源码

文章目录一.外星人入侵项目概述1.1 alien_invasion.py1.2 setttings.py1.3 ship.py1.4 alien.py1.5 bullet.py1.6 game_functions.py1.7 game_stats.py1.8 button.py1.9 scoreboard.py一.外星人入侵项目概述1.1 alien_invasion.py主文件alien_invasion.py创建一系列整个游戏都要用到的对象:存储在ai_settings 中的设置、存储在scree

2021-04-08 14:01:46 959 1

原创 Python常用模块6-Python的re模块简介

文章目录一.re模块简介1.1 匹配符1.1.1 字符集合1.1.2 重复次数1.1.3 组合匹配符二.模块内容2.1 常用函数2.2 异常2.3 匹配对象三.正则案例3.1 re.search3.2 re.match3.3 re.fullmatch3.4 re.split3.5 re.findall参考:一.re模块简介这个模块提供了与 Perl 语言类似的正则表达式匹配操作。模式和被搜索的字符串既可以是 Unicode 字符串 (str) ,也可以是8位字节串 (bytes)。 但是,Unicod

2021-04-07 14:20:29 839 3

原创 Python常用模块5-Python的sys模块简介

文章目录一.sys模块简介二.sys常用函数案例2.1 sys.argv2.2 sys.exit2.3 sys.path2.4 sys.modules2.5 sys.stdin\stdout\stderr参考:一.sys模块简介该模块提供了一些变量和函数。这些变量可能被解释器使用,也可能由解释器提供。这些函数会影响解释器。本模块总是可用的。sys常用的函数简介:函数名介绍sys.argv实现从程序外部向程序传递参数。sys.exit([arg])程序中间的退出,arg=

2021-04-07 13:53:54 567 2

原创 Python常用模块4-Python的datetime及time模块简介

文章目录一.Python datetime模块介绍1.1 有效的类型1.2 timedelta 类对象1.2.1 timedelta.total_seconds()方法1.3 date对象1.4 datetime对象1.5 time 对象1.6 tzinfo 对象1.7 timezone 对象二.datetime模块实操2.1 datetime模块常用方法案例2.2 格式日期时间2.2.1 使用strftime()格式化日期2.2.2 Python strptime()-日期时间的字符串2.3 pyth

2021-04-06 14:04:12 874

原创 Python常用模块3-Python的logging模块简介

文章目录一.logging模块简介1.1 logging日志级别1.2 logging.basicConfig介绍二.logging模块的处理流程2.1 四大组件2.2 Logger2.3 Handler三.logging模块使用2.1 日志输出到文件参考:一.logging模块简介logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等;相比print,具备如下优点:可以通过设置不同的日志等级,在release版本中只输出重要信息,

2021-04-06 13:52:40 556 1

原创 大数据开发之Hive面试题2-跨行两两分组相加

测试代码:create table test_20210402(gname varchar(20),amt decimal(10,2)); insert into test_20210402 values ('A',1),('B',2),('C',3),('D',4),('E',5),('F',6);一.需求有这么一张 game 表…想求 两两分组 三三分组 四四分组 时, AMT之和两两一组 AB,(1+2) AC,(1+3)..... BC,(2+3)....

2021-04-06 10:14:55 893 1

原创 Python系列14-外星人入侵项目

文章目录一.武装飞船1.1 项目规划1.2 安装pygame1.3 开始游戏项目1.3.1 创建Pygame窗口以及响应用户输入1.3.2 设置背景色1.3.3 创建设置类1.4 添加飞船图像1.4.1 创建Ship 类1.4.2 在屏幕上绘制飞船1.5 重构:模块game_functions1.5.1 函数check_events()1.5.2 函数update_screen()1.6 驾驶飞船1.6.1 响应按键1.6.2 允许不断移动1.6.3 左右移动1.6.4 调整飞船的速度1.6.5 限制飞船的

2021-04-02 14:12:56 1099 3

原创 Python常用模块2-Python的OS及errno模块

文章目录一.Python OS及errno模块简介1.1 OS模块介绍1.2 errno模块二.Python的OS及errno模块实操参考一.Python OS及errno模块简介以下整理的OS模块来源于互联网。1.1 OS模块介绍os.remove() 删除文件 os.unlink() 删除文件 os.rename() 重命名文件 os.listdir() 列出指定目录下所有文件 os.chdir() 改变当前工作目录os.getcwd() 获取当前文件路径os.mkdir() 新建目

2021-04-02 14:03:00 1001

原创 Python常用模块1-Python的pymysql模块

文章目录一.安装二.pymysql参数介绍三.pymsql实操3.1 通过pymsql实现增删改查MySQL数据3.2 通过pymsql实现将csv数据录入到mysql3.2.1 一个insert+update例子3.2.2 csv空值处理3.3 通过pymysql将本地mysql数据迁移到远程mysql参考一.安装Python3.x 如果想连接MySQL需要安装 pymysql 模块。pymysql 模块可以通过 pip 安装。pip install pymysql二.pymysql参数介绍

2021-04-02 13:59:02 600 2

原创 Python系列13-Python测试代码

文章目录一.测试函数1.1 单元测试和测试用例1.2 可通过的测试1.3 不能通过的测试1.4 测试未通过时怎么办1.5 添加新测试二.测试类2.1 各种断言方法2.2 一个要测试的类2.3 测试AnonymousSurvey 类2.4 方法setUp()参考:一.测试函数要学习测试,得有要测试的代码。下面是一个简单的函数,它接受名和姓并返回整洁的姓名name_function.pydef get_formatted_name(first, last): """Generate a neat

2021-04-01 14:10:19 805 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除