W_chuanqi-CSDN博客

原创 Python数字类型

数字是自然界计数活动的抽象，更是数学运算和推理表示的基础。计算机对数字的识别和处理有两个基本要求：确定性和高效性。确定性指程序能够正确且无歧义地解读数据所代表的类型含义。例如，输入1010，计算机需要明确地知道这个输入是可以用来进行数学计算的数字1010，还是类似房间门牌号一样的字符串”1010"，这两者用处不同、操作不同且在计算机内部存储方式不同。即便1010是数字，还需要进一步明确这个数字是十进制、二进制还是其他进制类型。高效性指程序能够为数字运算提供较高的计算速度，同时具备较少的存储空间代价。

2024-03-08 16:24:59 1135

原创 Python基础语法

程序员编写程序时不能定义与保留宇相同的标识符，每种程序设计语言都有一套保留字，保留字一般用来构成程序整体框架、表达关键值和具有结构性的复杂语义等。掌握一门编程语言首先要熟记其所对应的保留字。与其他标识符一样，Python的保留字也对大小写敏感。例如，for是保留字，而For则不是，程序员可以定义其为变量使用。Python 3系列可以采用中文等非英语语言字符对变量命名。由于存在输入法切换、平台编码支持、跨平台兼容等问题，从编程习惯和兼容性角度考虑，一般不建议采用中文等非英语语言字符对变量命名。

2024-03-06 11:23:53 1060

原创 Pandas基础介绍

Pandas 是一个开源的数据分析和数据处理库，它是基于 Python 编程语言的。Pandas 提供了易于使用的数据结构和数据分析工具，特别适用于处理结构化数据，如表格型数据（类似于Excel表格）。Pandas 是数据科学和分析领域中常用的工具之一，它使得用户能够轻松地从各种数据源中导入数据，并对数据进行高效的操作和分析。Pandas官网地址Pandas文档。

2024-03-04 11:43:41 997

原创【DingDing】直播回放下载

使用Fiddler进行测试了之后，发现没法进行下载。通过搜索找到了一个比较好的方案。在浏览器上打开需要先进行登录，然后在进行下载。注意：在手机上进行操作，电脑上会显示失败。4、在QQ浏览器/夸克浏览器上进行打开。

2024-03-01 00:29:48 549

原创 Python中的可变变量与不可变变量

就像区分一个人一样，同样都是张三，可能这个张三就不是那个张三。同一个变量是指的什么相同呢？Python中的对象包含三个要素，id（内存地址），type（数据类型），value(数据值)。像如下的赋值实际上是把变量a的指针指向了5的内存地址，打印可以看到a的内存地址和5的内存地址是一样的。输出结果为：==是比较操作符，用来判断两个对象是否相等，value（值）作为判断依据is是同一性运算符，比较判断两个对象是否相同，id（内存地址）作为判断因素。

2024-02-29 16:45:32 499

原创 Mathtype7.4安装与嵌入WPS

MathType是一款强大的数学公式编辑器，适用于教育教学、科研机构、工程学等领域人群。它支持在各种文档中插入复杂的数学公式和符号，具有应用于几何、化学及其他方面的新样板和符号，专业的颜色支持，为全球广域网创建公式，将输出公式译成其他语言（例如：TeX、AMS-TeX、LaTeX、MathML及自定义语言）的翻译器，用于公式编号、格式设置及转换Microsoft Word文档的专用命令，可自定义的工具栏，可容纳最近使用过的几百个符号、表达式和公式等功能和特点。

2024-01-05 11:27:50 3631 5

原创 HIve中的查询语句

在Hive中，不能在 WHERE 子句中直接使用字段别名，这是因为 Hive 的语法顺序限制了 WHERE 子句的启动时间早于 SELECT 子句中列别名的解析时间，所以在 WHERE 子句中，列别名是未知的。union和union all都是上下拼接sql的结果，这点是和join有区别的，join是左右关联，union和union all是上下拼接。对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

2023-07-04 19:31:22 2097

原创用户行为数据分析

user_data.csv是一份用户行为数据，时间区间为2017-11-25到2017-12-03，总计29132493条记录，大小为1.0G，包含5个字段。数据集的每一行表示一条用户行为，由用户ID、商品ID、商品类目ID、行为类型和时间戳组成，并以逗号分隔。关于数据集中每一列的详细描述如下：用户行为类型共有四种，它们分别是1、查询总访问量PV，总用户量UV2、查询日均访问量，日均用户量3、查询每个用户的购物情况（统计点击、商品购买、加入购物车、收藏的次数），统计结果放入表user_behavior_co

2023-06-10 17:48:45 1053

原创 HiveSQL初级题目

两张表：score_info，student_info。

2023-06-10 00:44:34 1202

原创 Hive中的DML操作

DML是Data Manipulation Language的缩写，意思是数据操纵语言，是指在SQL语言中，负责对数据库对象运行数据访问工作的指令集，以INSERT、UPDATE、DELETE三种指令为核心，分别代表插入、更新与删除，是开发以数据为中心的应用程序必定会使用到的指令。一并导处的HDFS路径，Import可将Export导出的内容导入Hive，表的数据和元数据信息都会恢复。（2）overwrite：表示覆盖表中已有数据，否则表示追加。（3）加载数据覆盖表中已有的数据。①上传文件到HDFS。

2023-06-08 14:32:09 1511

原创 Hive中的DDL操作

在Apache Hive中，托管表（managed table）是由Hive自己管理其数据存储的表，因此，当您在Hive中执行TRUNCATE操作时，Hive会直接删除表中的所有数据，而存储表结构和元数据。在创建内部表的时候可以不指定路径进行创建，但是在创建外部表的时候，需要指定外部数据的存储位置，也就是指定外部存储的路径。外部表，与之相对应的是内部表（管理表）。该语法允许用户利用select查询语句返回的结果，直接建表，表的结构和查询语句的结构保持一致，且保证包含select查询语句放回的内容。

2023-06-08 11:22:42 745

原创 Hive数据类型和文件格式

转换的原则是从数据范围小的类型向数据范围大的类型转换，或从数据精度低的类型向数据精度高的类型转换，以保证数据和精度不丢失。employees表的第1行记录看上去和下面展示的一样，它用到了上面表格中的分隔符。Hive中经常经使用未经压缩的文本文件来存储数据，各字段之间如何保证正确分隔，分隔符的选择十分重要，已选定的分隔符不能出现在数据中。Hive 的 STRING 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不限定最多能存储多少个字符，理论上它可以存储 2GB 的字符数。

2023-06-08 09:44:07 1562

原创 Linux快速安装MySQL

但是如果使用刚才那个密码，比较复杂，我们不容易记住，所以我们想把密码设置的简单一些，需要先进行设置。注意：由于MySQL密码策略，此密码必须足够复杂，需要大小写字母，数字，特殊字符。配置主要是root用户 + 密码，在任何主机上都能登录MySQL数据库。注意：若出现以下错误。

2023-06-06 18:44:50 805

原创 sparkRDD编程实战

由于一行为一条记录，先对数据进行切分构成二元组（时间，用户），然后按照用户进行分组，得到分组后的数据，取第一条数据为该用户第一次出现的数据，然后按照时间进行分组，最后输出结果。我们按照每个品类的点击、下单、支付的量来统计热门品类。首先我们先对原始数据进行结构的转换，只需要省份和广告即可，接着我们按照（省份，广告）进行聚合，然后按照省份进行分组，再进行组内排序，取前三个，最后打印输出。上面的数据图是从数据文件中截取的一部分内容，表示为电商网站的用户行为数据，主要包含用户的4种行为：搜索，点击，下单，支付。

2023-06-05 09:55:06 1336

原创虚拟机扩容

注意：这里有个细节，就是不能全扩展满，比如空闲空间是60G，然后这里的话60G不能全扩展上，这里我扩展的是55G。将虚拟机关机，然后点击VM顶部菜单栏中的显示或隐藏控制台视图按钮来显示已建立的虚拟机的配置信息。在我们一开始设置虚拟机的时候，一般都没有给虚拟机设定太大的磁盘容量，我当初设置的是每台虚拟机。磁盘容量，但随着课程的不断深入，内存逐渐不够用了。以上只是卷的扩容，然后我们需要将文件系统扩容。配置完成后，不要直接启动集群，需要重启一下。配置完成后，不要直接启动集群，需要重启一下。

2023-05-28 13:10:14 7478 13

原创 HBASE Phoenix异步创建索引报错

修改hbase-site.xml 的这个配置项：hbase.zookeeper.quorum。分发 hbase-site.xml 文件。关闭phoenix、hbase。启动hbase、phoenix。

2023-05-11 18:11:02 296 1

原创 Flink高手之路6-Flink四大基石

Spark最近在实现Continue streaming，Continue streaming的目的是为了降低处理的延时，其也需要提供这种一致性的语义，最终也采用了Chandy-Lamport这个算法，说明Chandy-Lamport算法在业界得到了一定的肯定。提供了一致性的语义之后，Flink为了让用户在编程时能够更轻松、更容易地去管理状态，还提供了一套非常简单明了的State API，包括ValueState、ListState、MapState，BroadcastState。

2023-04-20 23:19:20 877

原创 Flink高手之路5-Table API & SQL

Flink的Table模块包括 Table API 和 SQL：Table API 是一种类SQL的API，通过Table API，用户可以像操作表一样操作数据，非常直观和方便SQL作为一种声明式语言，有着标准的语法和规范，用户可以不用关心底层实现即可进行数据的处理，非常易于上手Flink Table API 和 SQL 的实现上有80%左右的代码是公用的。作为一个流批统一的计算引擎，Flink 的 Runtime 层是统一的。

2023-04-20 23:16:18 788

原创 Flink高手之路4-Flink流批一体

env.fromElements(可变参数)env.fromCollection(各种集合)env.generateSequence(开始,结束)env.fromSequence(开始,结束SourceFunction：非并行的随机数据源（并行度为1）RichSourceFunction：丰富的非并行的随机数据源（并行度为1）ParallelSourceFunction：并行的随机数据源（并行度可以大于等于1）

2023-04-20 21:12:28 1534

原创 HBase高手之路7—HBase之全文检索Phoneix

Phoenix官方网址：http://phoenix.apache.org/Phoenix官网：「We put the SQL back in NoSQL」Apache Phoenix让Hadoop中支持低延迟OLTP和业务操作分析。提供标准的SQL以及完备的ACID事务支持通过利用HBase作为存储，让NoSQL数据库具备通过有模式的方式读取数据，我们可以使用SQL语句来操作HBase，例如：创建表、以及插入数据、修改数据、删除数据等。

2023-04-20 14:33:14 1336

原创 HBase高手之路6—HBase高可用

HBase集群如果只有一个master，一旦master出现故障，将导致整个集群无法使用，所以在实际的生产环境中，需要搭建HBase的高可用，也就是让HMaster高可用，也就是需要再选择一个或多个节点也作为HMaster，但是只有一个是active，其他的都为backup master当active的master宕机时，从backup master中选举一个作为active。

2023-04-20 11:21:20 506

原创 HIve安装配置（超详细）

文章目录Hive安装配置一、Hive安装地址二、Hive安装部署1. 把 `apache-hive-3.1.2-bin.tar.gz`上传到Linux的/export/software目录下2. 解压`apache-hive-3.1.2-bin.tar.gz`到/export/servers/目录下面3. 修改`apache-hive-3.1.2-bin.tar.gz`的名称为hive4. 修改/etc/profile，添加环境变量5. 初始化元数据库（默认是derby数据库）三、MySQL安装1. 安装M

2023-04-19 14:07:30 49627 29

原创 HBase高手之路5—HBase的JavaAPI编程

关闭所有的项目，在Idea的启动页。

2023-04-10 11:27:11 2392

原创 Hive常⽤交互命令与属性配置

或者或者–defifine key=value和–hivevar key=value是等价的。⼆者都是让⽤户在命令⾏定义⾃定义变量以便在Hive脚本中使⽤。当⽤户使⽤这个功能时，hive会将这些键值对放到hivevar命名空间，以便和其他3种内置命名空间（hiveconf、system、env）进⾏区分。hive属性有3种配置⽅式，分别可以在hive-site.xml中配置、命令⾏参数中配置、SET设定参数配置，上述三种设定⽅式的优先级依次递增。即配置⽂件

2023-04-02 21:18:36 655 2

原创 Flink高手之路3-Flink的入门案例

查看官网案例：https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/dev/dataset/overview/对于DataSet的数据结果如果使用print，就不需要execute执行。注意：这里建议先关闭 IDEA，然后重新打开。yarn的web ui查看。

2023-03-30 11:00:35 1426

原创 HBase高手之路3-HBase数据模型

在HBASE中，数据存储在具有行和列的表中。这是看起来关系数据库(RDBMS)一样，但将HBASE表看成是多个维度的Map结构更容易理解。ROWKEYC1列蔟C2列蔟rowkey列1列2列3列4列5列6rowkey0001C1（Map）列1 => 值1列2 => 值2列3 => 值3C2（Map）列4 => 值4列5 => 值5列6 => 值6"1" : "x",

2023-03-27 10:08:08 461

原创 Flink高手之路2-Flink集群的搭建

准备好数据文件上传hdfs首先要确保 hdfs 集群已经启动发现我们以前已经上传过了提交命令这个错误需要把flink-1.16.1与hadoop3进行集成。查看 flink web ui查看 hdfs web UI点击一个文件查看重启集群删除hdfs上以前创建的output文件夹提交任务，使用之前上传的数据查看结果杀掉hadoop001的master进程，并再次提交任务再次删除hdfs上之前创建的output文件夹再次提交任务，可以正常运行并查看结果，说明高可用搭建成功。

2023-03-23 22:07:46 3612 2

原创 Hive数据仓库简介

Hive起源于Facebook，Facebook公司有着大量的日志数据，而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架，可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发，但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具，而Hive就诞生于此，只要懂SQL语言，就能够胜任大数据分析方面的工作，还节省了开发人员的学习成本。

2023-03-21 15:05:49 3551

原创 HBase高手之路4-Shell操作

describe '表名'注意：集群启动启动ZooKeeper启动hdfs启动HBASE进入shell命令行在HBase中，如果要对海量的数据进行扫描查询，尤其是全表扫描效率很低，可以使用过滤器Filter来提高查询的效率。过滤器Filter可以根据主键、列簇、列、版本号(时间戳)等条件对数据进行查询过滤。在HBase中，使用过滤器有两种方式，一种就是使用命令行基于jRubby语法的选项实现交互式查询，另一种是基于HBase的JAVA API的方式进行编程开发。

2023-03-20 20:32:23 3876

原创 HBase高手之路2-HBase集群的搭建

Hbase高手之路 – 第二章 – HBase集群的搭建配置，Hadoop非高可用

2023-03-15 14:35:37 809

原创 Spark高手之路3—Spark运行架构

Spark 集群的独立部署环境中，不需要依赖其他的资源调度框架，自身就实现了资源调度的功能，所以环境中还有其他两个核心组件：Master 和 Worker，这里的 Master 是一个进程，主要负责资源的调度和分配，并进行集群的监控等职责，类似于 Yarn 环境中的 RM, 而Worker 呢，也是进程，一个 Worker 运行在集群中的一台服务器上，由 Master 分配资源对数据进行并行的处理和计算，类似于 Yarn 环境中 NM。在提交应用中，可以提供参数指定计算节点的个数，以及对应的资源。

2023-03-15 12:20:25 468

原创 Spark高手之路1—Spark简介

Spark官网Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎，相对于 Hadoop MapReduce 将中间结果保存在磁盘中, Spark 使用了内存保存中间结果, 能在数据尚未写入硬盘时在内存中进行运算.Spark 只是一个计算框架, 不像 Hadoop 一样包含了分布式文件系统和完备的调度系统, 如果要使用 Spark, 需要搭载其它的文件系统和更成熟的调度系统。

2023-03-09 08:31:17 1504 2

原创 HBase高手之路1-Hbase简介

HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。官方网站：http://hbase.apache.orgHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据，更具体来说是仅需使用普通的硬件配置，就能够处理由成千上万的行和列所组成的大型数据。

2023-03-08 16:03:27 620 2

原创 Scala运算符

它只针对于整型数据. 因为计算机底层存储, 操作, 运算采用的都是数据的二进制补码形式, 且以后我们要经常和海量的数据打交道, 为了提高计算效率, 我们就可以使用位运算符来实现快速修改数据值的操作.所谓的原反补码, 其实指的都是二进制数据, 把十进制的数据转成其对应的二进制数据, 该二进制数据即为: 原码.（1）对于除号“/”，它的整数除和小数除是有区别的：整数之间做除法时，只保留整数部分而舍弃小数部分。关于二进制的数据, 最前边的那一位叫: 符号位, 0表示正数, 1表示负数. 其他位叫: 数值位.

2023-03-08 11:01:20 472

原创 Spark高手之路2—Spark安装配置

local 本地模式毕竟只是用来进行练习演示的，真实工作中还是要将应用提交到对应的集群中去执行，这里我们来看看只使用 Spark 自身节点运行的集群模式，也就是我们所谓的独立部署（Standalone）模式。⚫ 参数 3 含义：指定保存 Application 历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。所谓的 Local 模式，就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境，一般用于教学，调试，演示等。

2023-03-07 17:52:53 1247

原创 Balsamiq Wireframes 安装配置

Balsamiq Wireframes官方版是一款十分不错的线框图工具。Balsamiq Wireframes最新版可以帮助用户在开会时或者平时能够快速的画出自己想要的草图和理论。Balsamiq Wireframes界面清晰、使用便捷，支持通过图像或交互式PDF在网络上共享或显示线框。Balsamiq线框编辑器界面由五个主要区域组成：工具栏，UI库，画布，导航器面板和属性面板。每个都在下面描述。

2023-03-07 10:01:16 2397

原创 Scala变量和数据类型

（3）Nothing，可以作为没有正常返回值的方法的返回类型，非常直观的告诉你这个方法不会正常返回，而且由于 Nothing 是其他任意类型的子类，他还能跟要求返回值的方法兼容。在将 String 类型转成基本数值类型时，要确保 String 类型能够转成有效的数据，比如我们可以把"123"，转成一个整数，但是不能把"hello"转成一个整数。由于Java有基本类型，而且基本类型不是真正意义的对象，即使后面产生了基本类型的包装类，但是仍然存在基本数据类型，所以Java语言并不是真正意思的面向对象。

2023-03-04 16:01:29 796

网络大数据采集期末试卷

Python语言开发工具选择

完全数python题目解析

空空如也