![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 68
阿坚87
这个作者很懒,什么都没留下…
展开
-
Hadoop3.x修改默认配置
有时集群可能与现有端口冲突,或者出于安全考虑会要修改默认端口或存储。下面列出了整理的常用配置项。一、修改默认端口涉及组件配置项默认端口修改后端口配置文件zookeeper端口2181123XXzkui9093123XX/app/zkui/config.cfghadoopnamenode的web访问9870123XXhdsf-site.xml / dfs.namenode.http-address.mycluster.nn1hadoop原创 2021-11-17 09:00:32 · 651 阅读 · 0 评论 -
HBase集成Phoenix
HBase是使用列式存储,在使用起来不如SQL方便,所以就出现了Phoenix。可以直接基于HBase添加索引,以及用SQL实现增删改查。1. 下载解压参考:http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html# wget http://www.apache.org/dyn/closer.lua/phoenix/phoenix-5.1.1/phoenix-hbase-2.3-5.1.1-bin.tar.gz# wget https:原创 2021-11-15 11:17:09 · 1871 阅读 · 0 评论 -
Hadoop3.x集成HBase
HBase作为Hadoop家族中实现高并发的利器,我们来看看怎么进行集成。1. 下载并上传到服务器目前使用2.3.5版本wget https://mirrors.bfsu.edu.cn/apache/hbase/2.3.5/hbase-2.3.5-bin.tar.gz#wget https://mirrors.bfsu.edu.cn/apache/hbase/2.4.4/hbase-2.4.4-bin.tar.gz2. 解压tar zxvf hbase-2.3.5-bin.tar.gz -C原创 2021-11-14 08:05:13 · 1937 阅读 · 0 评论 -
Hadoop3.x集成Hive3.1.2手册
1)、安装MySQL卸载内置MariaDBrpm -qa | grep mariadbsudo yum -y remove mariadb-libs-5.5.68-1.el7.x86_64下载并解压文件下载地址:https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.21-1.el8.x86_64.rpm-bundle.tartar -xvf mysql-8.0.21-1.el7.x86_64.rpm-bundle.ta原创 2021-11-12 10:35:26 · 1422 阅读 · 0 评论 -
Pandas之十二速查手册
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容Pandas的功能比较丰富,很多方法也不需要一直记住,只需要在用到的时候能找到就可以。比较通俗的做法是,在速查手册查找合适的方法,再看该方法的参数并测试和使用。(看方法参数推荐使用Pycharm)首先列出官方的速查表,再详细说明Pandas中的方法。速查表1.1 导入包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt1.2 数据.原创 2021-10-14 14:54:59 · 242 阅读 · 0 评论 -
Pandas之十一数据读取与导出
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容pandas可以从不同的数据源加载和导出数据。从下面两张图可以看出,支持的数据源还是比较丰富的。读取数据导出数据本文以常用的数据库和csv文件为例,做简单介绍。1. 操作数据库可以使用pd.read_sql从数据库读取数据,以及df.to_sql将dataframe的数据写入到数据库中。1.1 读取数据读取数据库数据时,需要安装相应的驱动包。此处使用pymysql,再指定用户名、密码、主机等信息,创建数据库连接对象.原创 2021-10-14 14:51:49 · 360 阅读 · 0 评论 -
Pandas之十数据分类
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容Pandas中为数据分类的需求提供专门的类型category,可以由多种方式创建,并结合dataframe或Series进行使用。1.1 pd.Categorical创建1.2 pd.Series创建1.3 pd.DataFrame创建1.4 CategoricalDtype创建...原创 2021-10-14 08:45:00 · 590 阅读 · 0 评论 -
Pandas之九时序数据
Pandas之九时序数据关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容有时要处理不同时间的数据,比如对其按日、月、年进行分析。Pandas提供了便捷的方法做这类分析,常用的方法有重新采样、时区设置、周期转换等。重新采样:使用resample方法对原始数据以某个新的频率进行采样,再进行聚合运算。时区设置:默认生成的时间不带时区(naive),可应对其进行时区设置(tz_localize)与转换(tz_convert)。周期转换:可以将某个时点的数据,用to_period方法原创 2021-10-11 20:41:12 · 585 阅读 · 0 评论 -
Pandas之八Reshaping(二)
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容前文我们聊过了数据重塑中的stack和unstack,今天继续聊聊透视表功能,该功能和Excel中的数据透视功能相似。pivot:对原始DataFrame进行变形整理。pivot table:可以在数据变形整理的基础上,做数据聚合操作。下面使用图中数据对其进行说明df = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo", "bar", "bar", .原创 2021-09-30 15:52:45 · 88 阅读 · 0 评论 -
Pandas之八Reshaping(一)
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容数据分析时,有时会要对数据做一些变形才能更好地分析,Pandas提供了灵活的方法应对该场景,包括stack和pivot table。stack:将dataframe中的列转为行。pivot table:数据透视表,功能比较丰富,大多数场景都可适用。下面使用图中两套数据对这两个功能进行说明1. StackStack提供了行转列与列转行的操作,使用.stack将列转为行,还可以使用.unstack将行转为列(stack的逆操.原创 2021-09-29 16:17:28 · 107 阅读 · 0 评论 -
Pandas之七分组统计
Pandas之七分组统计关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容在数据分析时,分组也是一个常用的功能,比如分别统计每个月的股票波动率、每个部门的人数、每个季度的利润等等。在Pandas中提供了groupy方法对数据进行分组。Pandas中的groupby一般包括以下三个步骤:拆分,依据指定的规则将数据拆分为不同的组合。执行函数,将一个方法相对独立地在每个组合上执行。组合,将每个组合上执行的结果组合到一个结果集中。下面我们以图中的数据来演示上述各项功能。1、分原创 2021-09-26 11:14:08 · 363 阅读 · 0 评论 -
Pandas之六Merge
关注微信公众号:数据研发技术,点击菜单:PY宝典,查看往期精彩内容有时要分析的数据源存放在不同的地方被读取到不同的dataframe,但需要对其合并分析。比如某个业务按月份存放数据到不同的表或文件,但是需要合并分析各个月的变化趋势时就可能需要将不同的dataframe合并到后进行分析。Pandas提供了两种合并操作:concat:直接拼接,将datafarme或series按行或列拼接在一起join:类似于sql中的join,按照条件组合到一起1. Concatconcat可以同时合并两个.原创 2021-09-18 15:02:03 · 125 阅读 · 0 评论 -
Pandas之五数据操作
Pandas之五数据操作前面我们聊过了对象创建、数据查看、数据选择的相关操作,现在就要进入到数据分析阶段了。使用pandas主要原因就是其提供的数据分析功能,能实现大部分的数据统计分析工作。对数据进行操作主要有四种类型:数据统计:常用的就是计数、平均值、最大值、最小值、标准差、分位数等等函数应用:依次对dataframe每行执行某个函数数值计数:统计每个值出现的次数,在制作直方图时可能会用到字符串函数:pandas支持字符串,自然地支持对字符串进行各种操作下面我们以图中的数据来演示上述各项功原创 2021-09-17 09:41:30 · 171 阅读 · 0 评论 -
Pandas之四缺失数据处理
Pandas之四缺失数据处理在实际的数据处理过程当中,不可避免地会遇到有部分数据缺失。比如在分析股票行情数据时,有部分股票有时会停牌就会出现行情数据缺失的情况。一般在pandas中将缺失值以np.nan来表示,其好处是会在计算时忽略,同时其类型是float,不影响总体数据计算。数据分析时就要处理这些缺失值,pandas提供了缺失数据处理方法,包括删除缺失值、缺失值填充、缺失值判断等。首先在前文数据上,生成新的dataframe:删除缺失值使用.dropna删除缺失值,可以针对整个datafram原创 2021-09-15 13:10:44 · 351 阅读 · 0 评论 -
Pandas之三选择数据
前文介绍了如何查看dataframe数据,现在再来看看怎么样定位和修改pandas的具体数据。官方推荐选择数据的方法为.at, .iat, .loc, .iloc,这些方法可以指定行列的信息进行数据筛选。具体功能说明如下:at:根据标签(label)定位具体元素iat:根据位置定位具体元素loc:根据标签截取Series、dataframe或具体元素iloc:根据位置截取Series、dataframe或具体元素配合起来可以在dataframe里面使用多种方式选择数据:按数据列选择数据原创 2021-09-14 16:42:32 · 286 阅读 · 0 评论 -
Pandas之二查看数据
上文我们聊过了在pandas中的对象创建,其中最常用的对象就是dataframe,今天我们来聊聊怎么样其中的数据。pandas提供了丰富的查看数据的手段:head:查看最前面的几行tail:查看最后面的几行index:查看indexcolumns:查看列名describe:查看dataframe的几个统计量,包括总数、均值、标准差、最小值、最大值、25%分位数、50%分位数和75%分位数T:转置后的dataframesort_index:使用index进行排序sort_values:对其原创 2021-09-14 09:57:32 · 804 阅读 · 0 评论 -
Pandas之一创建对象
Pandas之一创建对象pandas已经成了使用python进行数据分析的必备工具,其基于numpy使用纯python开发。本文从最简单的对象创建讲起,会逐步深入讲解。通过pandas可以创建的对象包括Series、Index和DataFrame。Series可以理解为一个一维数组,也有点像列表。Index可以理解为二维表格中的序号,用于标识每行数据,不能重复,不能删除。DataFrame可以理解为二维表格,其包括index、column、row等属性。Series通过一个值列表直接创建原创 2021-09-13 16:22:43 · 362 阅读 · 0 评论 -
SQL实现日期自动填充
SQL实现日期自动填充在使用SQL进行数据处理时,经常会遇到需要补齐日期的需求,今天聊一聊几个主流数据库的实现方式。下面以生成2021-09-01到2021-09-30之间所有日期为例进行说明Oracleconnect by的递归查询还是比较强大的,实现起来也比较简单SELECT TO_DATE('2021-08-31', 'yyyy-mm-dd') + ROWNUM as date_listFROM DUALCONNECT BY ROWNUM <= 30;MySQL在MySQL原创 2021-09-10 12:39:40 · 3155 阅读 · 0 评论 -
综合评价法之秩和比法(RSR)
背景介绍秩和比法(Rank-sum ratio,简称RSR法),是我国学者、原中国预防医学科学院田凤调教授于1988年提出的,集古典参数统计与近代非参数统计各自优点于一体的统计分析方法。它不仅适用于四格表资料的综合评价,也适用于行×列表资料的综合评价,同时也适用于计量资料和分类资料的综合评价。RSR法现在广泛地应用于医疗卫生、科技、经济等邻域的多指标综合评价、统计预测预报、鉴别分类、统计质量控制等方面。设计思想使用数据大小的相对关系,对评价对象进行排名,根据排名的结果计算得到RSR。一般过程是将原创 2021-08-30 14:29:21 · 8298 阅读 · 1 评论 -
Linux安装Python3
Linux安装Python3安装必要包sudo yum install -y zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel libffi-devel gcc make下载和安装wget https://www.python.org/ftp/python/3.9.6/Python-3.9.6.tgztar -zxvf **.gz./configure --prefi原创 2021-07-06 13:47:30 · 134 阅读 · 0 评论 -
pandas计算最大回撤
文章目录需求实现总结需求实现总结因参考文章实现的是一个series的数据,而我需要处理整个dataframe里面的指标,而这时还不太清楚pandas.groupby.apply的用法pandas.groupby.agg是对分组中的某一列进行处理,是将该列传递给agg的函数,当需要同时处理多个列时,agg就有点力不从心pandas.groupby.apply是对一个分组进行处理,会将整...原创 2020-03-23 18:04:47 · 3995 阅读 · 0 评论 -
Java调用Python脚本问题总结
文章目录问题解决办法参考文章问题使用Java调用Python脚本执行时遇到hang住,导致后续程序无法继续执行。一共遇到过2次,两次原理是一样的,但是出现的方式不同屏幕打印日志,而java调用时未及时消费,导致缓冲区被写满python脚本报很多warning错误,打印到屏幕上,同样导致缓冲区被写满解决办法针对屏幕打印日志的问题,将屏幕日志关闭streamHandler = l...原创 2019-11-20 14:24:53 · 416 阅读 · 0 评论 -
Pandas中inf值替换
Pandas中inf值替换问题出现inf的原因解决办法参考文章问题今天使用Pandas从MySQL读取数据,在处理之后再写回到数据库时报了一个错误:sqlalchemy.exc.ProgrammingError: (MySQLdb._exceptions.ProgrammingError) inf can not be used with MySQL很明确报错说明,是因为DataFram...原创 2019-11-18 11:22:55 · 9645 阅读 · 1 评论 -
数据库某列数据相乘
1.基本思路Oracle、MySQL等数据库中只有sum、max、min等函数用于做某列数据聚合,而没有办法直接计算某列数据的乘积,所以需要另想办法。根据数学对数的加法原理,可对该列中所有数据取对数,后sum再做指数运算,即可得出所需结果。该做法最大的好处是利用数据库预置函数,效率相对较高该思路亦可应用到其他语言2.对数加法原理以下实验基于MySQL3.查询结果代码SELEC...原创 2019-11-18 09:34:03 · 6422 阅读 · 0 评论