自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 问答 (2)
  • 收藏
  • 关注

原创 【数据库笔记】hive查询结果导出到本地

1 未登陆hive客户端【数据库笔记】VM15运行hive の 命令就是说只是启动了hadoop这种方法无法指定生成csv文件的路径,会生成在hadoop启动的文件目录下方法一:bin/hive -ebin/hive -e "set hive.cli.print.header=true;use kaikeba;SELECT a.user_name, sum(a.pay_amount), sum(a.refund_amount)FROM (

2021-04-20 19:57:27 217

原创 【数据库笔记】运用Xshell建立hive使用的数据库

文章目录目录定位完整代码目录定位在hadoop的家目录下新建一个目录datas:su - hadoopmkdir datas通过xftp将数据源文件传到datas中“hadoop fs -mkdir /datas1”“hadoop fs -chmod g+w /datas1”“hadoop fs -put /home/hadoop/datas1/* /datas”启动hivestart-all.shcd /opt/module/apache.

2021-04-20 17:55:53 555

原创 【数据库笔记】HiveSQL核心技能 常用函数 | 表连接 | 窗口函数 | 优化技巧

文章目录1 HiveSQL核心技能1-常用函数1.1 基础语法① SELECT …A… FROM …B… WHERE …C…② GROUP BY(分类汇总)③ ORDER BY④ HiveSQL执行顺序1.2 常用函数① 时间戳转化为日期② 计算日期间隔③ 条件函数 case & if④ 字符串函数⑤ 聚合统计函数1.3 重点练习1.4 常见错误及处理办法2 HiveSQL核心技能2-表连接2.1 inner join2.2 left join & right join1 HiveSQ.

2021-04-20 01:31:43 269

原创 【数据库笔记】Hadoop原理与概念

文章目录1 大数据分析简介2 走进Hadoop2.1 快速认知Hadoop2.2 HDFS:块级别的分布式文件存储系统2.3 MapReduce:分布式计算框架2.4 YARN:作业调度和资源管理器2.5 Hadoop生态圈3 走进Hive3.1 Hive是什么?3.2 Hive与传统数据库的比较3.3 Hive的数据类型4 Hive的数据定义与操作4.1 数据库相关4.2 数据表相关5 拓展知识理解什么是大数据分析以及其应用场景。熟悉Hadoop/Hive的基本概念与原理。严格按照步骤进行服务.

2021-04-18 17:29:15 152

原创 【Error解决实录】ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10060)

第1步,关闭所有防火墙第2步,打开cmd终端,进入mysql安装的位置:cd C:\Program Files (x86)\mysql-8.0.23-winx64\bin第3步,登录mysql测试是否ok:mysql -u root -p

2021-04-18 17:21:04 205 1

原创 【数据库笔记】VM15运行hive の 命令

打开虚拟机出现以下界面说明虚拟机正常启动:打开Xshell,如果出现问题,参考:Xshell 6 提示 “要继续使用此程序,您必须应用最新的更新或使用新版本”使用Xshell连接操作虚拟机出现以下界面,说明已经成功连接至虚拟机输出命令清空界面clear启动hadoop和hive,必须先正确切换用户,不是root来做的su - hadoop启动hadoopstart-all.sh等待程序运行完后,检查hadoop是否正常启..

2021-04-18 01:39:40 337

转载 【Python笔记】Pandas性能优化,速度起飞

文章目录1 数据读取の优化2 数据聚合の优化3 数据逐行操作の优化4 使用numba进行数值计算Reference:提速百倍的Pandas性能优化方法,让你的Pandas飞起来!1 数据读取の优化读取数据是进行数据分析前的一个必经环节,pandas中也内置了许多数据读取的函数,最常见的就是用pd.read_csv()函数从csv文件读取数据,那不同格式的文件读取起来有什么区别呢?哪种方式速度更快呢?我们做个实验对比一下。这里采用的数据共59万行,分别保存为xlsx、csv、hdf以及pkl格.

2021-04-16 16:20:04 676

转载 【Python笔记】Pandas数据分组:Groupby

文章目录1 Groupbyの基本原理2 groupby+agg 聚合3 groupby+transform4 groupby+applyReference:Pandas之超好用的Groupby用法详解在日常的数据分析中,经常需要将数据 根据某个(多个)字段划分为不同的群体(group) 进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别、年龄)进行细分,研究用户的使用情况和偏好等。在Pandas中,上述的数据处理操作主要运用groupby.

2021-04-16 16:03:30 1732

转载 【Python笔记】Pandas数据处理:map、apply、applymap

文章目录1 Series数据处理1.1 map1.2 apply2 DataFrame数据处理2.1 apply2.2 applymapReference:Pandas数据处理三板斧——map、apply、applymap详解在日常的数据处理中,经常会对一个DataFrame进行逐行、逐列和逐元素的操作,对应这些操作,Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。这篇文章就以案例附带图解的方式,为大家详细介绍一下这三个方法的实现原理,相信读完本文后,.

2021-04-16 15:04:50 360

转载 【DA】留存率-SQL实现

1 背景留存率:是用户分析的核心指标之一。它也是经典的AARRR模型(海盗模型)中就有一个重要节点——留存(Acquisition)。留存率的计算也是用户分析模型的计算基础,那么如何在数据库中用SQL实现呢?2 什么是留存率常见的留存率有次日留存、三日留存、7日留存、14日留存、30日留存、90日留存等等,不同产品用户行为的频率是有差别的,留存率的设定也应该视不同产品而定,有些低频的产品用周或月的颗粒度就够了。留存率计算逻辑:假如某日新增了100个用户,第二天登录了50个,则次日留存率为50/.

2021-04-15 12:17:15 384

原创 【Error解决实录】UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xfc in position 7: invalid start byt

df=pd.read_csv('..\dataset.csv')问题解决:Notepad++打开目标文件,右下角查看编码格式df=pd.read_csv('..\dataset.csv',encoding='ANSI')

2021-04-15 11:45:31 357

原创 【Python笔记】捕获异常

1 Python错误处理机制一旦出错,还要一级一级上报,直到某个函数可以处理该错误(比如,给用户输出一个错误信息)。所以高级语言通常都内置了一套 try...except...finally... 的错误处理机制,Python也不例外。让我们用一个例子来看看 try 的机制:try: print('try...') r = 10 / 0 print('result:', r) except ZeroDivisionError as e: print('exce

2021-04-13 22:30:42 221

转载 【数据库笔记】MySQL必知必会:chapter 27-30 全球化和本地化 | 安全管理 | 数据库维护 | 改善性能

文章目录chapter 27 全球化和本地化27.1 字符集和校对顺序27.2 使用字符集和校对顺序chapter 28 安全管理28.1 访问控制28.2 管理用户1.创建用户账号2.删除用户账号3.设置访问权限4 更改口令chapter 29 数据库维护29.1 备份数据29.2 进行数据库维护3.诊断启动问题4.查看日志文件chapter 30 改善性能30.1 改善性能chapter 27 全球化和本地化27.1 字符集和校对顺序数据库表被用来存储和检索数据。不同的语言和字符集需要以不同.

2021-04-10 19:04:59 132

原创 【Python笔记】Python 字符串前面加 u,r,b,f

1 字符串前加 uu"我是含有中文字符组成的字符串。"作用:后面字符串以 Unicode 格式进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。2 字符串前加 r r"\n\n\n\n”  # 表示一个普通生字符串 \n\n\n\n,而不表示换行了作用:去掉反斜杠的转义机制。(特殊字符:即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的”\n”表示换行,”\t”表示Tab等。 )应用:常用于正则表达式,对应着re模块。3 字符串前加 b

2021-04-10 18:16:53 258

原创 【Error解决实录】win10设置默认浏览器闪退

用电脑管家设置

2021-04-07 11:50:01 858

原创 【随记】Windows系统录屏并转GIF

ScreenToGif:https://www.screentogif.com/downloads.html?l=zh_cn

2021-04-05 21:44:16 222

原创 【Error解决实录】InsecureRequestWarning: Unverified HTTPS

在开头添加:from requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)

2021-04-05 15:54:09 227

原创 【Error解决实录】requests.exceptions.SSLError

import requestsfrom bs4 import BeautifulSoupurl='https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/'res=requests.get(url)html=res.textsoup=BeautifulSoup(html,'html.parser')# 把网页解析为BeautifulSoup对象items=soup.find_all('div',class

2021-04-03 00:48:57 319 1

原创 【爬虫系列】HTML基础知识

文章目录1 HTML是什么2 查看网页的HTML代码3 HTML的层级4 HTML的组成4.1 标签和元素4.2 网页头和网页体4.3 属性stylehrefclassid如果把HTML的学习依序分为三个层次的话,应该是读懂、修改、编写。【读懂】:只有读懂了HTML,我们才能看得懂网页结构,才有可能运用Python的其他模块去解析数据和提取数据。所以想写爬虫程序的话,一定要先学好HTML基础【修改】:在读懂HTML文档的基础上,学会修改HTML代码,是可以做些有趣的事情的【编写】:如果达到了这.

2021-04-02 21:40:21 137

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除