longjunj-CSDN博客

原创 python数据挖掘---机器学习模型

数据 + 算法算法Clustering (聚类)，旨在将数据根据相似性进行分组，不需要事先知道每个组的具体定义或标签。简单地说就是把相似的东西分到一组（簇），聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起。因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，这在Machine Learning中被称作unsupervised learning (无监督学习)。

2024-07-18 20:09:43 693

原创 spark中的内置函数以及如何处理日期时间

【代码】spark中的内置函数以及如何处理日期时间。

2024-06-29 20:11:27 126

原创 spark中pyspark ：add

RDD:(弹性分布式数据集合 ) spark的计算核心，spark采用rdd管理数据RDDRDD是spark的一种数据模型（规定数据的存储结构和计算方法）python中的数据模型list [] 可以重复存储数据 appendset{} 不允许重复存储RDD的模型可以对内存数进行共享管理分布式数据可以在多台服务器上同时计算执行弹性可以根据计算的需求将数据进行分区拆分，本质就是将数据分成多份rdd中封装了各种算子方便进行计算，主要分为两类转化算子对rdd数据进行转化计算得到新的rdd。

2024-06-25 20:53:09 683

原创 FineReport 数知鸟笔试题

①同步报表目录 ②登录数知鸟平台,配置通讯录 ③在数知鸟平台完成集成配置 ④在帆软决策系统安装"数知鸟"插件,并填写字段 ⑤选填服务器地址(得分：2分满分：2分)(得分：2分满分：2分)(得分：2分满分：2分)甘特图中根据待处理、进行中、已结束的不同需求处理状态区分需求条形图的显示效果(得分：2分满分：2分)数知鸟仅可以集成finereport，不可以集成fineBI(得分：2分满分：2分)在帆软决策系统中挂载“知识库-报表管理”界面时，对应的链接是(得分：2分满分：2分)

2024-06-23 10:57:19 912

原创 FineReport 初级证书测试题

在FineReport中，可以对单元格添加超级链接操作，完成一些跳转或一些额外功能，可以添加的超级链接类型有（）(得分：0分满分：2分)在填报时，可以使用暂存功能防止数据丢失，暂存功能是将报表中的数据存在（）(得分：2分满分：2分)决策报表中，其他组件引用报表块中的单元格数据，也可以引用数据集中的数据(得分：2分满分：2分)为了让第一行标题在报表分页时，分页都可以显示，通常的做法是( )(得分：2分满分：2分)设计器中建立的所有类型的数据链接在平台数据连接中均会显示(得分：2分满分：2分)

2024-06-22 21:41:44 1002

原创 FineReport

SELECT 销售员,sum(销量) as 销售总量 FROM 销量 where 1=1 ${if(len(area)=0,'','and 地区="'+area+'"')} ${if(len(xsy)=0,'','and 销售员="'+xsy+'"')} group by 销售员。SELECT * FROM 销量 where 1=1 ${if(len(area)=0,'','and 地区="'+area+'"')} ${if(len(xsy)=0,'','and 销售员="'+xsy+'"')}

2024-06-18 20:07:11 935 1

原创 python中的数据分析（juypter）

加载数据后的套路df.head()df.info()选择部分数据df[[要选中的列名的列表]]df.loc[,]df.iloc[,]df.query()增加df[新列名] = [新值]删除df.drop()axis =0 可以改成1inplace修改数据return xs.apply(func) # 自定义处理，当修改的逻辑比较复杂的时候修改表结构indexdf.set_index() # 把df中一列数据变成行索引。

2024-06-12 19:44:07 1588 1

原创 python数据分析（juypter）

电商黄金公式销售额 = 访客数 * 转化率 * 客单价GROW阿里AIPL，字节5A模型京东4A模型使用这些思维模型，把用户划分成不同的阶段，从刚注册 → 成为忠实用户可以考察不同时间处于不同阶段的用户量考核处于每个阶段用户数量的转化率利用模型进行目标拆解和追踪。

2024-06-12 19:41:53 1079 2

原创 Python数据分析中DataFrame查询数据操作

df[(df['区域'].isin(['望京租房','回龙观租房'])) & (df['朝向'].isin(['西南东北','南北'])) ]df_head['区县'] = ['朝阳区','朝阳区','西城区','昌平区','朝阳区'] # 传入列表长度和df长度必须一致。charset=utf8'区别，insert可以指定插入的位置编号， df['新列名'] = ’新值‘ 插入的新列在df的最后。df.rename(index = {'老值':'新值'},columns={'老值':'新值'})

2024-06-07 16:09:46 722

原创 Python数据分析常用开源库 pycharm

Pandas数据处理的库，可以做可视化文件类数据交互的是比较好的 CSV Excel环境搭建起来前3天主要介绍DataFrame的使用（Pandas的API）第四天数据可视化Pandas 解决数据分析问题报表，取数（SQL， Pandas，Excel）业务分析能力，应用数据分析的模型规则模型，分析套路RFMAARRR同期群分析漏斗分析数据分析报告数据异常波动原因的分析AB测试。

2024-06-07 11:56:15 721

原创 python pycharm中的多任务-正则-装饰器

运行多个进程或线程执行代码逻辑多个进程或线程同时执行叫做并行执行多个进程或线程交替执行叫做并发执行必行还是并发有cpu个数决定5个进程 cpu核心是3个计算时时并发执行 5个进程需要抢占cpu资源，谁抢到谁执行代码计算5个进程 cpu核心10个计算时时并行执行不需要抢占资源，没个进程都已一个独立的cpu核心使用完成计算多任务在执行计算时，可以执行的同一的计算任务，也可以执行不同的任务进程和线程进程是分配资源的最小单元线程是执行任务的最小单元实现多任务可以使用多进程或多线。

2024-06-04 15:05:39 852

原创 Python大数据模块-网络编程-多任务

自定义的模块文件# 封装业务代码name = '张三'data = a+b# 开发人员自己的代码文件print(res)s = Student('张三',20)s.func()

2024-06-01 20:16:54 598

原创 python大数据 pycharm中的面向对象-文件读写-异常

【代码】python大数据 pycharm中的面向对象-文件读写-异常。

2024-05-30 17:58:25 707

原创 python 第四章函数（pycharm）（2）

当成参数使用时则相当于参数引用了全局变量的值，对参数进行操作，不影响全局全局变量的值。本质形参可以理解为函数定义的内部变量，接收外部传递的数据。*args 不能接受关键字传参的数据接受位置参数的数据。在传递实参数据时，需要按照参数的位置进行数据的传递。在函数外定义，可以在代码中任意位置使用的变量。在函数内直接操作全局变量，会修改全局变量的值。变量的作用域就是指在代码中变量能使用的位置。变量的作用域指的变量能使用的范围。在函数内定义，在函数内能使用。在函数调用时指定的参数数据。在函数定义时指定的参数。

2024-05-28 20:58:15 565

原创 python （pycharm）第五章面向函数

lambda 参数1,参数2...:计算逻辑(参数的处理逻辑)# 匿名函数的使用# 加法计算功能data = a+bprint(res)# 使用匿名函数实现# 定义匿名函数时，需要指定一个变量接收# 使用变量调用匿名函数封装对问题的归纳总结，封装为一个类继承对已经封装的类进行继承，在原来类的基础上可以再次增加新的内容人类的操作性别，年龄，地址。。上班学习吃饭继承人类原来的数据和行为都会被继承下来性别，年龄，地址,手机号，收入上班学习吃饭睡觉玩游戏多态。

2024-05-28 19:42:50 884

原创 python 第四章函数（pycharm）（1）

函数中三要素函数名必须定义参数（可选）将数据传递函数中使用返回值（可选）将函数中的数据传递外部进行使用# 函数的介绍# 功能1def login(name_list,password_list): # 接受参数# 函数作用域# 通过四个空格，来确认函数所执行的逻辑从哪里开始name = input('请输入用户名:')password = input('请输入密码:')# 先判断用户名是否正确# 在判断密码是否正确print('登录成功')

2024-05-27 20:12:22 845

原创 python第三章：元组，字典，集合

元组定义# 元组只有一个元素数据时，需要加逗号data_tuple7 = ('张三',)# 元组是有序数据，支持下标# 容器都支持for循环取值print(i)# 字典定义# 字典中不要重复定义key值，保证key值唯一# 使用key的下标值进行value部分取值# 字典下标不支持切片操作# 集合的定义# data_set5 = {{'id':1,'name':'张三'},{'id':2,'name':'李四'}}

2024-05-27 20:02:28 487

原创 python 第二章循环和容器

容器就是存放数据的python 中的容器数据有多种形式，每种形式有自己的存储格式, 数据存储特性不一样字符串 str 就是容器存放一个一个字母格式 : 单引号 '数据' ，双引号 "数据" ,三个引号 """ 数据 """列表 list 格式: [数据1，数据2，数据3.....]元祖 tuple 格式: (数据1，数据2，数据3，)集合 set 格式: {数据1，数据2，数据3，}字典 dict 格式: {key1:value1,key2:value....}数据存储的特性有序和无序。

2024-05-24 19:44:43 999 1

原创 Python基础第一章

Python的应用场景主要是使用Python各类模块进行相关功能开发网站Web开发Django，Flask，FastAPI等模块开发游戏Pygame模块(小游戏)人工智能NLP自然语言处理和CV视觉处理主要使用机器学习算法完成PyTorch模块 TensorFlow模块 opencv模块大数据开发pyspark 开发spark程序pyflink 开发flink程序hdfs模块操作hdfs数据采集requests模块scrapy 模块测试开发pytest运维开发。

2024-05-23 19:45:43 1078

原创 Mysql知识总结

(3)select 其他列,新别名 from 表名 lateral view explode(split(分割列,'分隔符')) tb1 as 新别名;insert into new_tb_user partition(gender=0) values(1,'张',20,'2024-10-10 14:21:21');-- 先分前100个。二级：select 列 from 表 [where] order by 条件(1) (升/降), 条件(2) (升/降)；-- 所有数据都复制。

2024-05-20 19:48:48 1274 5

原创 hdfs中MapReduce中的shuffle，combine和partitioner（hadoop，Hdfs）

如果没有自定义的 partitioning，则默认的 partition 算法，即根据每一条数据的 key的 hashcode 值摸运算（%） reduce 的数量，得到的数字就是“分区号”。

2024-05-20 11:25:38 500

原创 Hadoop的调度器总结

目前，Hadoop作业调度器主要有三种：FIFO、Capacity Scheduler和Fair Scheduler。Hadoop2.7.2默认的资源调度器是Capacity Scheduler。

2024-05-19 08:42:31 410

原创大数据项目流程中的思路

如果最后的需求有多样性需要通过多层DM层进行筛选可以通过编写文档例如要思路保持清晰。

2024-05-17 16:08:55 475

原创 hdfs中的yarn以及hdfs的数据压缩算法（Hadoop，hive，hdfs，yarn）

Hadoop 服务器中的架构：加入了yarn解决了资源调度的问题。加入了对zookeeper的支持实现比较可靠的高可用。

2024-05-17 08:42:46 1002

原创 HDFS小文件优化方法（Hadoop，hive，hdfs）

HDFS上每个文件都要在namenode上建立一个索引，这个索引的大小约为150byte，这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用namenode的内存空间，另一方面就是索引文件过大是的索引速度变慢。

2024-05-15 13:59:01 359

原创 Hadoop慢的原因以及如何优化

mapreduce 跑的慢的原因？1）计算机性能 CPU、内存、磁盘健康、网络 2）I/O 操作优化mapreduce 优化方法：1）数据输入 2）map 阶段 3）reduce阶段 4）IO运输 5）数据倾斜问题

2024-05-14 10:35:01 1207

原创 hdfs 中 Map Tas工作机制（Hadoop，hive，hdfs）

Map Task通过用户编写的RecordReader ，从输入InputSplit中解析出一个个key/value。

2024-05-13 20:10:44 445

原创 hdfs中的小知识（hadoop hdfs hive）

（1）自定义一个类继承FileInputFormat（2）改写RecordReader ，实现一次读取一个完整文件封装为KV。

2024-05-13 14:49:44 341 1

原创大数据项目中的拉链表（hadoop，hive）

在原始数据增加两个新字段起始时间（有效时间：什么时候导入的数据的时间），结束时间（默认的结束时间为9999-99-99）操作指令： select if（表名.字段 is null，结束时间，现在时间-1） as end_time。处理时间是处理昨天的数据因为是今天处理昨天的时间有效结束时间应该是昨天。如果有效时间为9999-99-99 说明当前数据为最新数据。数据有变化会显示新数据，没有则显示null 数据没有变化。拉链表，可实现数据快照，可以将历史和最新数据保存在一起。

2024-05-13 11:48:28 623 1

原创大数据中Hadoop序列化和反序列化及自定义bean对象实现序列化?

（1）必须实现Writable接口（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造（3）重写序列化方法（4）重写反序列化方法（5）注意反序列化的顺序和序列化的顺序完全一致（6）要想把结果显示在文件中，需要重写toString() ，且用”\t”分开，方便后续用（7）如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的 shuffle过程一定会对key进行排序。

2024-05-11 19:34:09 523 1

原创大数据项目流程中 hive优化

1.当表的数据量比较庞大的时候, 在编写SQL语句后, 需要首先测试 SQL是否可以正常的执行, 需要在表中执行查询操作, 由于表数据量比较庞大, 在测试一条SQL的时候整个运行的时间比较久, 为了提升测试效率, 可以整个表抽样出一部分的数据, 进行测试。2-开启SMB Join支持： set hive.auto.convert.sortmerge.join=true;将那些产生倾斜的key和对应v2的数据, 从当前这个MR中移出去, 单独找一个MR来处理即可, 处理后, 和之前的MR进行汇总结果即可；

2024-05-10 19:43:29 1173

原创大数据中Hadoop序列化和反序列化及自定义bean对象实现序列化?（hive，hadoop，hdfs）

Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。-序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。-反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。（6）要想把结果显示在文件中，需要重写toString() ，且用”\t”分开，方便后续用。1）序列化和反序列化。

2024-05-08 19:40:50 451 1

原创大数据中namenode与secondary node（hive，hadoop）

（1）第一次启动namenode格式化后，创建fsimage和edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。（2）客户端对元数据进行增删改的请求（3）namenode记录操作日志，更新滚动日志。（4）namenode在内存中对数据进行增删改查。

2024-05-08 08:37:25 420

原创大数据中服役新数据节点和退役旧节点步骤（hive，hadoop）

当要新上线数据节点的时候，需要把数据节点的名字追加在 dfs.hosts（1）关闭新增节点的防火墙（2）在 NameNode 节点的 hosts 文件中加入新增数据节点的 hostname（3）在每个新增数据节点的 hosts 文件中加入 NameNode 的 hostname（4）在 NameNode 节点上增加新增节点的 SSH 免密码登录的操作（5）在 NameNode 节点上的 dfs.hosts 中追加上新增节点的 hostname,

2024-05-07 19:54:03 754

原创 pyhthon 大数据项目流程中的任务调度和业务介绍

官网Apache DolphinScheduler 是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。Apache DolphinScheduler 旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种 OPS 编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinScheduler 以 DAG（Directed Acyclic Graph，DAG）流式方式组装任务，可以。

2024-05-04 19:53:10 1387

空空如也

空空如也