自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(123)
  • 问答 (2)
  • 收藏
  • 关注

原创 【数据库笔记】运用Xshell建立hive使用的数据库

文章目录目录定位完整代码目录定位在hadoop的家目录下新建一个目录datas:su - hadoopmkdir datas通过xftp将数据源文件传到datas中“hadoop fs -mkdir /datas1”“hadoop fs -chmod g+w /datas1”“hadoop fs -put /home/hadoop/datas1/* /datas”启动hivestart-all.shcd /opt/module/apache.

2021-04-20 17:55:53 658

原创 【数据库笔记】HiveSQL核心技能 常用函数 | 表连接 | 窗口函数 | 优化技巧

文章目录1 HiveSQL核心技能1-常用函数1.1 基础语法① SELECT …A… FROM …B… WHERE …C…② GROUP BY(分类汇总)③ ORDER BY④ HiveSQL执行顺序1.2 常用函数① 时间戳转化为日期② 计算日期间隔③ 条件函数 case & if④ 字符串函数⑤ 聚合统计函数1.3 重点练习1.4 常见错误及处理办法2 HiveSQL核心技能2-表连接2.1 inner join2.2 left join & right join1 HiveSQ.

2021-04-20 01:31:43 517

原创 【数据库笔记】Hadoop原理与概念

文章目录1 大数据分析简介2 走进Hadoop2.1 快速认知Hadoop2.2 HDFS:块级别的分布式文件存储系统2.3 MapReduce:分布式计算框架2.4 YARN:作业调度和资源管理器2.5 Hadoop生态圈3 走进Hive3.1 Hive是什么?3.2 Hive与传统数据库的比较3.3 Hive的数据类型4 Hive的数据定义与操作4.1 数据库相关4.2 数据表相关5 拓展知识理解什么是大数据分析以及其应用场景。熟悉Hadoop/Hive的基本概念与原理。严格按照步骤进行服务.

2021-04-18 17:29:15 422

原创 【Error解决实录】ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10060)

第1步,关闭所有防火墙第2步,打开cmd终端,进入mysql安装的位置:cd C:\Program Files (x86)\mysql-8.0.23-winx64\bin第3步,登录mysql测试是否ok:mysql -u root -p

2021-04-18 17:21:04 220 1

原创 【数据库笔记】VM15运行hive の 命令

打开虚拟机出现以下界面说明虚拟机正常启动:打开Xshell,如果出现问题,参考:Xshell 6 提示 “要继续使用此程序,您必须应用最新的更新或使用新版本”使用Xshell连接操作虚拟机出现以下界面,说明已经成功连接至虚拟机输出命令清空界面clear启动hadoop和hive,必须先正确切换用户,不是root来做的su - hadoop启动hadoopstart-all.sh等待程序运行完后,检查hadoop是否正常启..

2021-04-18 01:39:40 373

转载 【Python笔记】Pandas性能优化,速度起飞

文章目录1 数据读取の优化2 数据聚合の优化3 数据逐行操作の优化4 使用numba进行数值计算Reference:提速百倍的Pandas性能优化方法,让你的Pandas飞起来!1 数据读取の优化读取数据是进行数据分析前的一个必经环节,pandas中也内置了许多数据读取的函数,最常见的就是用pd.read_csv()函数从csv文件读取数据,那不同格式的文件读取起来有什么区别呢?哪种方式速度更快呢?我们做个实验对比一下。这里采用的数据共59万行,分别保存为xlsx、csv、hdf以及pkl格.

2021-04-16 16:20:04 881

转载 【Python笔记】Pandas数据分组:Groupby

文章目录1 Groupbyの基本原理2 groupby+agg 聚合3 groupby+transform4 groupby+applyReference:Pandas之超好用的Groupby用法详解在日常的数据分析中,经常需要将数据 根据某个(多个)字段划分为不同的群体(group) 进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别、年龄)进行细分,研究用户的使用情况和偏好等。在Pandas中,上述的数据处理操作主要运用groupby.

2021-04-16 16:03:30 1842

转载 【Python笔记】Pandas数据处理:map、apply、applymap

文章目录1 Series数据处理1.1 map1.2 apply2 DataFrame数据处理2.1 apply2.2 applymapReference:Pandas数据处理三板斧——map、apply、applymap详解在日常的数据处理中,经常会对一个DataFrame进行逐行、逐列和逐元素的操作,对应这些操作,Pandas中的map、apply和applymap可以解决绝大部分这样的数据处理需求。这篇文章就以案例附带图解的方式,为大家详细介绍一下这三个方法的实现原理,相信读完本文后,.

2021-04-16 15:04:50 409

转载 【DA】留存率-SQL实现

1 背景留存率:是用户分析的核心指标之一。它也是经典的AARRR模型(海盗模型)中就有一个重要节点——留存(Acquisition)。留存率的计算也是用户分析模型的计算基础,那么如何在数据库中用SQL实现呢?2 什么是留存率常见的留存率有次日留存、三日留存、7日留存、14日留存、30日留存、90日留存等等,不同产品用户行为的频率是有差别的,留存率的设定也应该视不同产品而定,有些低频的产品用周或月的颗粒度就够了。留存率计算逻辑:假如某日新增了100个用户,第二天登录了50个,则次日留存率为50/.

2021-04-15 12:17:15 421

原创 【Error解决实录】UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xfc in position 7: invalid start byt

df=pd.read_csv('..\dataset.csv')问题解决:Notepad++打开目标文件,右下角查看编码格式df=pd.read_csv('..\dataset.csv',encoding='ANSI')

2021-04-15 11:45:31 437

原创 【Python笔记】捕获异常

1 Python错误处理机制一旦出错,还要一级一级上报,直到某个函数可以处理该错误(比如,给用户输出一个错误信息)。所以高级语言通常都内置了一套 try...except...finally... 的错误处理机制,Python也不例外。让我们用一个例子来看看 try 的机制:try: print('try...') r = 10 / 0 print('result:', r) except ZeroDivisionError as e: print('exce

2021-04-13 22:30:42 302

转载 【数据库笔记】MySQL必知必会:chapter 27-30 全球化和本地化 | 安全管理 | 数据库维护 | 改善性能

文章目录chapter 27 全球化和本地化27.1 字符集和校对顺序27.2 使用字符集和校对顺序chapter 28 安全管理28.1 访问控制28.2 管理用户1.创建用户账号2.删除用户账号3.设置访问权限4 更改口令chapter 29 数据库维护29.1 备份数据29.2 进行数据库维护3.诊断启动问题4.查看日志文件chapter 30 改善性能30.1 改善性能chapter 27 全球化和本地化27.1 字符集和校对顺序数据库表被用来存储和检索数据。不同的语言和字符集需要以不同.

2021-04-10 19:04:59 252

原创 【Python笔记】Python 字符串前面加 u,r,b,f

1 字符串前加 uu"我是含有中文字符组成的字符串。"作用:后面字符串以 Unicode 格式进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。2 字符串前加 r r"\n\n\n\n”  # 表示一个普通生字符串 \n\n\n\n,而不表示换行了作用:去掉反斜杠的转义机制。(特殊字符:即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的”\n”表示换行,”\t”表示Tab等。 )应用:常用于正则表达式,对应着re模块。3 字符串前加 b

2021-04-10 18:16:53 277

原创 【Error解决实录】win10设置默认浏览器闪退

用电脑管家设置

2021-04-07 11:50:01 893

原创 【随记】Windows系统录屏并转GIF

ScreenToGif:https://www.screentogif.com/downloads.html?l=zh_cn

2021-04-05 21:44:16 249

原创 【Error解决实录】InsecureRequestWarning: Unverified HTTPS

在开头添加:from requests.packages.urllib3.exceptions import InsecureRequestWarningrequests.packages.urllib3.disable_warnings(InsecureRequestWarning)

2021-04-05 15:54:09 263

原创 【Error解决实录】requests.exceptions.SSLError

import requestsfrom bs4 import BeautifulSoupurl='https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/'res=requests.get(url)html=res.textsoup=BeautifulSoup(html,'html.parser')# 把网页解析为BeautifulSoup对象items=soup.find_all('div',class

2021-04-03 00:48:57 349 1

原创 【爬虫系列】HTML基础知识

文章目录1 HTML是什么2 查看网页的HTML代码3 HTML的层级4 HTML的组成4.1 标签和元素4.2 网页头和网页体4.3 属性stylehrefclassid如果把HTML的学习依序分为三个层次的话,应该是读懂、修改、编写。【读懂】:只有读懂了HTML,我们才能看得懂网页结构,才有可能运用Python的其他模块去解析数据和提取数据。所以想写爬虫程序的话,一定要先学好HTML基础【修改】:在读懂HTML文档的基础上,学会修改HTML代码,是可以做些有趣的事情的【编写】:如果达到了这.

2021-04-02 21:40:21 310

原创 【ML】sklearn的数据集

文章目录1 加载数据集1.1 自带数据集:`sklearn.datasets.load_`1.2 可下载数据集:`sklearn.datasets.fetch_`2 生成数据集2.1 make_blobs2.2 make_classification2.3 make_gaussian_quantiles2.4 make_hastie_10_22.5 make_circle & make_moonssklearn.datasets提供了大量的数据集功能,主要分为两类:加载数据集:大量现成的自.

2021-03-18 21:25:28 1001

原创 【Error解决实录】URLError: [Errno 11004][WinError 10054] 全解决

原代码:data = sb.load_dataset('iris')print(type(data))期望输出:<class 'pandas.core.frame.DataFrame'>实际输出:URLError: <urlopen error [Errno 11004] getaddrinfo failed>解决步骤:依据本文【http://blog.itblood.com/2496.html】,获取地址信息失败,通常是由于自动选择的DNS服务器不行,于是

2021-03-09 15:17:06 3245

原创 【Python笔记】random库

1 random.sample()sample()方法返回一个列表,其中从序列中随机选择指定数量的项目。注意:此方法不会更改原始顺序。random.sample(sequence, k)sequence:必填,可以是任何序列:列表,集合,范围等。k:返回列表的大小import randommylist = ["apple", "banana", "cherry"]print(random.sample(mylist, k=2))[‘cherry’, ‘apple’]...

2021-03-09 14:16:13 102

原创 【Python笔记】numpy reshape和resize的区别

主要两点区别。区别1:有无返回值,是否改变原数组resize :无返回值(返回值为None),会改变原数组。reshape :有返回值,返回值是被reshape后的数组,不会改变原数组。import numpy as np A = np.array([1, 2, 3, 4, 5, 6]) print("A:\n", A) A_resize = A.resize((2, 3))print("A_resize:\n", A_resize)print("A(after resize):

2021-03-08 23:12:05 2361

原创 【DA】特征选择之互信息

文章目录1 基本概念信息量信息熵条件熵互信息量2 Python实现-特征选择过滤器mutual_info_classif:离散目标变量的互信息mutual_info_regression:连续目标变量的互信息衡量单变量的相关性指标有很多,比如Pearson相关系数、Pearson卡方检验、Fisher得分、互信息等。1 基本概念详见:特征选择——互信息量信息量信息熵条件熵互信息量在给出互信息定义前先看下这张关系图:2 Python实现-特征选择过滤器mutual_in.

2021-03-05 20:51:07 6557 1

原创 【Python笔记】字符串的处理方法(延伸到pandas)(含正则表达式)

文章目录1 字符串的常用方法2 正则表达式2.1 匹配查询函数2.2 匹配替换函数2.3 匹配分割函数2.4 实际应用3 实战应用1 字符串的常用方法首先介绍一下Python中的字符串有哪些构造方法:构造字符串可以使用三种形式的引号。如果字符串的内容不包含任何引号,那么单引号、双引号和三引号都可以使用;如果字符串的内容仅包含双引号,类似变量string1的形式,那么只能使用单引号或三引号构造字符串;如果字符串的内容仅包含单引号,类似变量string2的形 式,那么只能使用双引号或三引号完.

2021-03-03 20:45:17 1666

原创 【Error解决实录】InvocationException: GraphViz‘s executables not found

下载安装GraphViz(这是一个独立软件)下载完后解压缩后,复制bin文件夹的路径。例如:C:\Program Files (x86)\Graphviz\bin将GraphViz安装目录的bin目录放到环境变量的path路径中windows下,两种方式均可:- 手动添加- 代码添加import os#注意修改你的路径os.environ["PATH"] += os.pathsep + 'C:\Program Files (x86)\Graphviz\bin' ...

2021-03-01 14:57:52 144

原创 【Error解决实录】TypeError: only integer scalar arrays can be converted to a scalar index

原代码:data = sb.load_dataset('iris')print(type(data))期望输出:<class 'pandas.core.frame.DataFrame'>实际输出:URLError: <urlopen error [Errno 11004] getaddrinfo failed>解决步骤:依据本文【http://blog.itblood.com/2496.html】,获取地址信息失败,通常是由于自动选择的DNS服务器不行,于是更

2021-02-10 19:16:45 851 1

原创 【随记】MySQL8安装 Win10+64bit

MySQL8.0.15+Win10+64安装(含避坑)win10添加环境变量方法Navicat如何连接MySQL

2021-02-01 18:43:48 121 1

原创 【数据库笔记】MySQL 窗口函数

文章目录源自:MySQL操作实战(二):窗口函数

2021-02-01 17:46:52 170

转载 【数据库笔记】MySQL 关键字 & 函数

文章目录0 基础数据1 关键字:EXISTS & NOT EXISTS2 函数2.1 count():计数2.2 group_concat():分组聚合2.3 substring_index():切分0 基础数据以下为本次应用的三张表,其结构和内容如下:-- 表1 : T_Score 分数表create table T_Score(stu_id int,lesson_id varchar(255),score int);-- 表2 : T_Stu_Profile 学生表c.

2021-01-31 20:22:21 250

原创 【Python笔记】read_html():获取table类型网页表格数据

文章目录0 基础知识table类型的表格网页结构read_html()函数1 快速抓取法1.1 思路1.2 代码2 完整爬虫抓取法2.1 思路2.2 代码3 小结常见的各种官网都有这样一种情况:网站中很多表格,我们想对这些表格进行整理汇总、或者是筛选,或者是处理分析。于是我们需要考虑:如何将网页表格数据使用python保存为Excel文件?如果需要抓的表格很少或只需要抓一次,那么推荐快速抓取法 [引文1]。如果页数比较多,推荐完整爬虫抓取法 [引文2]。解析函数用了BeautifulSoup.

2021-01-30 20:19:02 13378 3

原创 【Python笔记】Pandas时期及其算术运算

文章目录1 时期的频率转换2 按季度计算的时期频率3 将Timestamp转换为Period(及其反向过程)4 通过数组创建PeriodIndex5 重采样及频率转换升采样降采样OHLC重采样通过groupby进行降采样升采样和插值通过时期进行重采样6 时间序列绘图7 移动窗口函数指数加权函数二元移动窗口函数用户定义的移动窗口函数时期(period)表示的是时间区间,比如数日、数月、数季、数年等。period类表示的就是这种数据类型,其构造函数需要一个字符串或整数,以及下表的频率。# 表示从20.

2021-01-29 00:35:05 725

原创 【Python笔记】Pandas时区处理

文章目录1 时区处理2 本地化和转换方式一方式二3 操作时区意识型Timestamp对象4 不同时区之间的运算1 时区处理Python中时区信息来自第三方库pytz。import pytz# 常用的时区列表(440个)pytz.common_timezones[-5:]# ['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC']# 常用的时区集合pytz.common_timezones_set# {'Asia.

2021-01-28 20:21:05 1670

原创 【Python笔记】read_html():获取网页表格数据 & 读取JSON数据 & XML和HTML:Web信息收集 & 使用HTML和Web API

文章目录JSON数据XML和HTML:Web信息收集使用HTML和Web APIJSON数据JSON(JavaScript Object Notation的简称)已经成为通过HTTP请求在Web浏览器和其他应用程序之间发送数据的标准格式之一。它是一种比表格型文本格式(如CSV)灵活得多的数据格式。注意:全都要用英文输入模式下的双引号 “obj="""{"name":"Wes", "places_lived":["USA","Spain","China"], "pet":null, ".

2021-01-27 23:19:09 1749

原创 【Python笔记】Pandas层次化索引

文章目录SeriesDataFrame层次化索引(hierarchical indexing)是pandas的一项重要功能,它使你能在一个轴上拥有多个(两个以上)索引级别。抽象点说,它使你能以低纬度处理高纬度数据。Seriesdata=pd.Series(np.random.randn(10), index=[list('aaabbbccdd'),list('1231231223')])# a 1 -0.264274# 2 0.623079# .

2021-01-27 00:26:07 306

原创 【Python笔记】pandas排序和排名

文章目录排序SeriesDataFrame排名SeriesDataFrame排序对行或列索引进行排序(按字典序),可使用sort_index方法,将返回一个已排序的新对象。Seriesobj=pd.Series(range(4),index=list('dabc'))# d 0# a 1# b 2# c 3# dtype: int64obj.sort_index()# a 1# b 2# c 3# d 0# dtype: i.

2021-01-26 22:24:17 774

原创 【Python笔记】pandas算数运算和数据对齐

文章目录1 算数运算和数据对齐2 在算数方法中填充值3 DataFrame和Series之间的运算1 算数运算和数据对齐pandas最重要的一个功能是,它可以对不同索引的对象进行算数运算。在将对象相加时,如果存在不同的索引对,则结果的索引就是该索引对的并集。import pandas as pds1=pd.Series([7.3,-2.5,3.4,1.5],index=list('acde'))s2=pd.Series([-2.1,3.6,-1.5,4,3.1],index=list('ac.

2021-01-26 19:43:32 796

原创 【Python笔记】SciPy的统计模块:scipy.stats

SciPy的统计模块是scipy.stats,其中有一个类是连续分布的实现,一个类是离散分布的实现。此外,该模块中还有很多用于统计检验的函数。# 导入包from scipy import statsimport matplotlib.pyplot as plt# 1.使用`scipy.stats`包按正态分布生成随机数generated = stats.norm.rvs(size=900)# 2.用正态分布去拟合生成的数据,得到其均值和标准差print("Mean", "Std", sta

2021-01-26 00:25:38 11037

原创 【DA】Python 实现区间估计

文章目录一个总体均值的置信区间一个总体方差的置信区间两个总体方差比的置信区间一个总体均值的置信区间def mean_interval(mean=None, std=None, sig=None, n=None, confidence=0.95): """ mean:样本均值 std:样本标准差 sig: 总体方差 n: 样本量 confidence:置信水平 功能:构建总体均值的置信区间 """ alpha = 1 - c.

2021-01-18 21:53:15 1618

原创 【DA】z检验p值的计算

Excel-NORMSDIST函数概念NORMSDIST函数 返回标准正态累积分布函数的函数值。 该分布的平均值为 0(零),标准偏差为 1。 可以使用此函数代替标准正态曲线面积表。NORMSDIST(z)NORMSDIST(z)NORMSDIST(z)z :必需值,是需要计算其分布的数值。如果 z 是非数字的,则 NORMSDIST 返回#VALUE! 错误值。标准正态分布密度函数的公式为:f(z)=12πe−z22f(z)=\frac{1}{\sqrt{2π}}e^{-\frac{z^2}

2021-01-05 02:05:58 15435 1

原创 【Python笔记】Scipy.stats.norm函数解析

scipy.stats.norm函数 可以实现正态分布(也就是高斯分布)pdf ——概率密度函数标准形式是:norm.pdf(x, loc, scale)等同于norm.pdf(y) / scale ,其中 y = (x - loc) / scale调用方式用两种,见代码:from scipy import statsimport numpy as npimport matplotlib.pyplot as pltplt.figure(figsize=(12,8))x=np.lins

2021-01-02 20:41:08 40867 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除