2021年04月_阳光快乐普信男

原创【数据库笔记】hive查询结果导出到本地

1 未登陆hive客户端【数据库笔记】VM15运行hive の命令就是说只是启动了hadoop这种方法无法指定生成csv文件的路径，会生成在hadoop启动的文件目录下方法一：bin/hive -ebin/hive -e "set hive.cli.print.header=true;use kaikeba;SELECT a.user_name, sum(a.pay_amount), sum(a.refund_amount)FROM (

2021-04-20 19:57:27 217

原创【数据库笔记】运用Xshell建立hive使用的数据库

文章目录目录定位完整代码目录定位在hadoop的家目录下新建一个目录datas：su - hadoopmkdir datas通过xftp将数据源文件传到datas中“hadoop fs -mkdir /datas1”“hadoop fs -chmod g+w /datas1”“hadoop fs -put /home/hadoop/datas1/* /datas”启动hivestart-all.shcd /opt/module/apache.

2021-04-20 17:55:53 555

原创【数据库笔记】HiveSQL核心技能常用函数 | 表连接 | 窗口函数 | 优化技巧

文章目录1 HiveSQL核心技能1-常用函数1.1 基础语法① SELECT …A… FROM …B… WHERE …C…② GROUP BY（分类汇总）③ ORDER BY④ HiveSQL执行顺序1.2 常用函数① 时间戳转化为日期② 计算日期间隔③ 条件函数 case & if④ 字符串函数⑤ 聚合统计函数1.3 重点练习1.4 常见错误及处理办法2 HiveSQL核心技能2-表连接2.1 inner join2.2 left join & right join1 HiveSQ.

2021-04-20 01:31:43 269

原创【数据库笔记】Hadoop原理与概念

文章目录1 大数据分析简介2 走进Hadoop2.1 快速认知Hadoop2.2 HDFS：块级别的分布式文件存储系统2.3 MapReduce：分布式计算框架2.4 YARN：作业调度和资源管理器2.5 Hadoop生态圈3 走进Hive3.1 Hive是什么？3.2 Hive与传统数据库的比较3.3 Hive的数据类型4 Hive的数据定义与操作4.1 数据库相关4.2 数据表相关5 拓展知识理解什么是大数据分析以及其应用场景。熟悉Hadoop/Hive的基本概念与原理。严格按照步骤进行服务.

2021-04-18 17:29:15 152

原创【Error解决实录】ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10060)

第1步，关闭所有防火墙第2步，打开cmd终端，进入mysql安装的位置：cd C:\Program Files (x86)\mysql-8.0.23-winx64\bin第3步，登录mysql测试是否ok：mysql -u root -p

2021-04-18 17:21:04 205 1

原创【数据库笔记】VM15运行hive の命令

打开虚拟机出现以下界面说明虚拟机正常启动：打开Xshell，如果出现问题，参考：Xshell 6 提示 “要继续使用此程序,您必须应用最新的更新或使用新版本”使用Xshell连接操作虚拟机出现以下界面，说明已经成功连接至虚拟机输出命令清空界面clear启动hadoop和hive，必须先正确切换用户，不是root来做的su - hadoop启动hadoopstart-all.sh等待程序运行完后，检查hadoop是否正常启..

2021-04-18 01:39:40 337

转载【Python笔记】Pandas性能优化，速度起飞

文章目录1 数据读取の优化2 数据聚合の优化3 数据逐行操作の优化4 使用numba进行数值计算Reference：提速百倍的Pandas性能优化方法，让你的Pandas飞起来！1 数据读取の优化读取数据是进行数据分析前的一个必经环节，pandas中也内置了许多数据读取的函数，最常见的就是用pd.read_csv()函数从csv文件读取数据，那不同格式的文件读取起来有什么区别呢？哪种方式速度更快呢？我们做个实验对比一下。这里采用的数据共59万行，分别保存为xlsx、csv、hdf以及pkl格.

2021-04-16 16:20:04 676

转载【Python笔记】Pandas数据分组：Groupby

文章目录1 Groupbyの基本原理2 groupby+agg 聚合3 groupby+transform4 groupby+applyReference:Pandas之超好用的Groupby用法详解在日常的数据分析中，经常需要将数据根据某个（多个）字段划分为不同的群体（group）进行分析，如电商领域将全国的总销售额根据省份进行划分，分析各省销售额的变化情况，社交领域将用户根据画像（性别、年龄）进行细分，研究用户的使用情况和偏好等。在Pandas中，上述的数据处理操作主要运用groupby.

2021-04-16 16:03:30 1732

转载【Python笔记】Pandas数据处理：map、apply、applymap

文章目录1 Series数据处理1.1 map1.2 apply2 DataFrame数据处理2.1 apply2.2 applymapReference：Pandas数据处理三板斧——map、apply、applymap详解在日常的数据处理中，经常会对一个DataFrame进行逐行、逐列和逐元素的操作，对应这些操作，Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。这篇文章就以案例附带图解的方式，为大家详细介绍一下这三个方法的实现原理，相信读完本文后，.

2021-04-16 15:04:50 360

转载【DA】留存率-SQL实现

1 背景留存率：是用户分析的核心指标之一。它也是经典的AARRR模型（海盗模型）中就有一个重要节点——留存（Acquisition）。留存率的计算也是用户分析模型的计算基础，那么如何在数据库中用SQL实现呢？2 什么是留存率常见的留存率有次日留存、三日留存、7日留存、14日留存、30日留存、90日留存等等，不同产品用户行为的频率是有差别的，留存率的设定也应该视不同产品而定，有些低频的产品用周或月的颗粒度就够了。留存率计算逻辑：假如某日新增了100个用户，第二天登录了50个，则次日留存率为50/.

2021-04-15 12:17:15 384

原创【Error解决实录】UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xfc in position 7: invalid start byt

df=pd.read_csv('..\dataset.csv')问题解决：Notepad++打开目标文件，右下角查看编码格式df=pd.read_csv('..\dataset.csv'，encoding='ANSI')

2021-04-15 11:45:31 357

原创【Python笔记】捕获异常

1 Python错误处理机制一旦出错，还要一级一级上报，直到某个函数可以处理该错误（比如，给用户输出一个错误信息）。所以高级语言通常都内置了一套 try...except...finally... 的错误处理机制，Python也不例外。让我们用一个例子来看看 try 的机制：try: print('try...') r = 10 / 0 print('result:', r) except ZeroDivisionError as e: print('exce

2021-04-13 22:30:42 221

转载【数据库笔记】MySQL必知必会：chapter 27-30 全球化和本地化 | 安全管理 | 数据库维护 | 改善性能

文章目录chapter 27 全球化和本地化27.1 字符集和校对顺序27.2 使用字符集和校对顺序chapter 28 安全管理28.1 访问控制28.2 管理用户1.创建用户账号2.删除用户账号3.设置访问权限4 更改口令chapter 29 数据库维护29.1 备份数据29.2 进行数据库维护3.诊断启动问题4.查看日志文件chapter 30 改善性能30.1 改善性能chapter 27 全球化和本地化27.1 字符集和校对顺序数据库表被用来存储和检索数据。不同的语言和字符集需要以不同.

2021-04-10 19:04:59 132

西瓜太郎

原创【数据库笔记】hive查询结果导出到本地

原创【数据库笔记】运用Xshell建立hive使用的数据库

原创【数据库笔记】HiveSQL核心技能常用函数 | 表连接 | 窗口函数 | 优化技巧

原创【数据库笔记】Hadoop原理与概念

原创【Error解决实录】ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10060)

原创【数据库笔记】VM15运行hive の命令

转载【Python笔记】Pandas性能优化，速度起飞

转载【Python笔记】Pandas数据分组：Groupby

转载【Python笔记】Pandas数据处理：map、apply、applymap

转载【DA】留存率-SQL实现

原创【Error解决实录】UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xfc in position 7: invalid start byt

原创【Python笔记】捕获异常

转载【数据库笔记】MySQL必知必会：chapter 27-30 全球化和本地化 | 安全管理 | 数据库维护 | 改善性能

原创【Python笔记】Python 字符串前面加 u,r,b,f

原创【Error解决实录】win10设置默认浏览器闪退

原创【随记】Windows系统录屏并转GIF

原创【Error解决实录】InsecureRequestWarning: Unverified HTTPS

原创【Error解决实录】requests.exceptions.SSLError

原创【爬虫系列】HTML基础知识

空空如也

CSDN已经发布过的文章，再修改-保存就会直接发布

vscode 上传代码到git报错