自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ArYe

人工智能

  • 博客(350)
  • 资源 (18)
  • 收藏
  • 关注

原创 使用Spark模拟HIVE-SQL环境【原创首发】

文章目录应用场景WIN10搭建Spark环境代码模板pom展望应用场景练习HIVE的SQL时,可以用MySQL(8以上版本)或HIVE,进行建表和插数据,然后写SQL而本文使用SparkSQL来提供HIVE-SQL练习环境该方法 适用于 擅长写代码 而 不擅长【DDL】和【DML】 的程序员来练习SQLWIN10搭建Spark环境代码模板pomimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf

2021-07-31 15:01:33 68 1

原创 图解HIVE时间和日期and类型转换

文章目录现在今天昨天字符串秒数现在SELECT CURRENT_TIMESTAMP();2021-06-25 20:03:30.571000000今天SELECT CURRENT_DATE();2021-06-25昨天SELECT DATE_SUB(CURRENT_DATE(),1);或SELECT DATE_ADD(CURRENT_DATE(),-1);2021-06-24字符串SELECT DATE_FORMAT(CURRENT_TIMESTAMP(),'y

2021-06-25 20:08:31 41

原创 大数据(8x)机器学习库SparkML

环境配置SparkMLlib简介内置样本ClusteringML Algorithms 机器学习算法 分类、回归、聚类、协同过滤Featurization 特征工程 特征的 抽取、转换、选择、降维Pipelines 管道Persistence 持久化 保存和加载模型Utilities 实用工具 线性代数、统计学Collaborative Filtering

2021-02-07 10:50:49 191

原创 大数据(0b)数据仓库

数据库Database按照数据结构来组织、存储和管理数据的仓库数据仓库Data Warehouse是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合范式:构造关系数据库遵循的规则范式理论关系建模维度建模维度表事实表数仓分层ODS Operation Data Store 原始层DWD Data Warehouse Detail 明细层DWS Data Warehouse Service 服务层DWT DataData Warehouse Topic 主题层ADS

2020-12-25 23:34:29 277

原创 图解Python时间和日期time和datetime数据类型转换

文章目录前言4大数据类型time.struct_time ⇌ floattime.struct_time ⇌ strdatetime.datetime ⇌ strAppendix前言Python版本:3.7.4主要内容:时间相关的数据类型转换floattime.struct_timestrdatetime.datetime4大数据类型import time, datetime_pri...

2020-02-27 08:47:34 1080 4

原创 文本清洗正则表达式(持续更新)

文章目录替换标点:中->英转小写查找时间数量词文本切分替换标点:中->英def replace_punctuation(text): """替换标点(英→中)""" text = text.replace(',', ',') # 逗号 text = text.replace(';', ';') # 分号 text = text.replace(...

2019-09-16 15:57:03 2579 7

原创 Python【print】常用颜色(复制用)

字体颜色# redprint('\033[031m')print('\033[0m')# yellowprint('\033[033m')print('\033[0m')# blueprint('\033[034m')print('\033[0m')# purpleprint('\033[035m')print('\033[0m')# 蓝绿色print('\033[0...

2018-06-18 11:43:57 2325

原创 图解-使用【变异系数】获取权重,并比较效果

变异系数Coefficient of Variation用于比较多组数据的离散程度比较 两组 量纲不同的数据 的 离散程度,不能用标准差,可考虑变异系数不适用场景:数据下限小于0(导致平均值等于0)变异系数权重法使用变异系数计得的权重值会随着数据的变化而变化,可认为是一种无监督学习

2021-12-07 15:47:22 117

原创 Python二进制方式切分文件并还原

文件传输大小限制时,需要将文件切小,分别发送,合并还原文件发送限制(比如:破解软件、小电影…)Python二进制方式均等切分文件并且合并还原

2021-12-02 18:34:18 397

原创 数据分析SQL环比增长率、同比增长率

环比同比

2021-11-30 14:07:27 768

原创 监控HDFS每天数据增量(Python2实现)

文章目录监控HDFS每天数据量hadoop fs -dfCDH截图apache截图,待补充,不造一不一样HIVE建表Python脚本#!/usr/bin/python2import subprocesssubprocess.check_output('hadoop fs -df', shell=True)定时任务,每天零点执行...

2021-11-29 09:02:36 862

原创 CPU与内存配比(云服务器选择)参考

记录时间:2021年11月操作系统虚拟核心数内存(G)CPU与内存配比大致价格(元)笔记本Windows8161:25000云服务器(计算型)Linux8161:22200每年云服务器(通用型)Linux4161:41500每年云服务器(内存型)Linux2161:81200每年CPU与内存配说明适用场景1:2计算型并发量较小的Web服务(如:面向企业内部、面向B端)各种软件(如:游戏、办公...

2021-11-25 18:37:09 2646

原创 Python不调包实现条形图

Python手写条形图Python不调包实现条形图Python打印条形图

2021-11-23 18:30:54 119

原创 图解数据计算中的窗口概念

窗口概念:将 无界限的 数据 切分为 有界限的 数据典型示例:统计每分钟的流量,这就是个基于时间的滚动窗口基于时间的窗口,时间驱动:滚动窗口、滑动窗口、会话窗口基于事件个数的窗口,事件驱动:滚动窗口、滑动窗口

2021-11-12 16:04:03 601

原创 数据分析SQL离职率的计算

离职率Dimission Rate用于衡量企业内部人力资源流动状况可以了解企业对员工的吸引和满意情况离职率过高,一般表明企业的员工情绪较为波动、劳资关系存在较严重的矛盾,企业的凝聚力下降,它可导致人力资源成本增加(含直接成本和间接成本)、组织的效率下降。但并不是说员工的离职率越低越好,在市场竞争中,保持一定的员工流动,可以使企业利用优胜劣汰的人才竞争制度,保持企业的活力和创新意识。按月统计按季度统计按半年统计按年统计计算公式离职率=离职人数/(离职人数+期末在职人数)离职率=离职.

2021-11-10 21:49:35 1393

原创 大数据(9d)Flink流处理核心编程

文章目录EnvironmentSource一些准备从Java的集合中读取数据从Kafka自定义数据源TransformSinkEnvironment#mermaid-svg-9JQsAYiMf3Ogn1iH .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-9JQsAYiMf3Ogn1iH .label te

2021-11-10 11:39:53 993

原创 大数据(3j)Sqoop生产经验

文章目录增量同步遇到的坑并行度列式存储导出问题Sqoop数据导出一致性问题增量同步遇到的坑业务系统手动导入数据,导入的时间使用了历史时间而不是插入时间并行度Sqoop的底层运行任务是MR中的Map,没有Reduce阶段的任务,默认4个MapTask数据导入时,建议并行度设为1:--num-mappers 1并行度>1时,会产生多个文件数据量较大时,可以增加并行度,并指定切分的键:--split-by列式存储导出问题问题描述:数仓表采用列式存储,Sqoop导

2021-11-09 15:45:07 1674

原创 运行Sqoop任务的通用模板:Python2脚本实现(待优化)

文章目录mysql_to_hdfs.pyads_to_mysql.py待优化开发、测试、生产 环境 自动切换待添加的参数待添加的模式本想用Bash?结果被Shell的正则表达式恶心到了!还是Python好mysql_to_hdfs.py思想:把【配置、sqoop、mysql】三者分离用法:把一大堆SQL写进_queries,SQL之间用双换行分隔,日期用{ymd}注意:SQL的日期要用双引号,SQL注释要顶格#!/usr/bin/python2"""Usage mysql_to_

2021-11-09 11:20:10 1279

原创 大数据(9c)Flink运行架构

文章目录〇运行架构图1、Client(客户端)2、JobManager(作业管理器)2.1、ResourceManager(资源管理器)2.2、Dispatcher(调度器)2.3、JobMaster(作业主控器)3、TaskManager3.1、Slot(插槽)3.2、Task、SubTask、Operator3.3、图3.3.1、StreamGraph(逻辑流图)3.3.2、ExecutionGraph(执行图)Appendix〇运行架构图1、Client(客户端)客户端 用于 准备和发送da

2021-11-04 14:54:14 1545

原创 Python本地数据(文件及文件夹)读写的代码架构

文章目录前言单个数据多个数据前言场景:做算法项目时候,有些中间数据或模型可以存本地,如何放置才不会乱?本文目的:管理本地数据的存放方便管理文件清晰场景有时候,数据比如:模型数据、词库、训练集、临时数据量不大,放本地,放本地怕乱,所以单个数据from os import pathprefix = path.dirname(__file__)print('当前目录', prefix)full_name = path.join(prefix, 'a.txt')pr

2021-11-03 18:06:29 13

原创 自动识别和切换【开发环境、测试环境、生产环境】Python代码模板

获取主机地址from socket import gethostname, gethostbynamehostname = gethostname() # 获取主机名print('hostname:', hostname)host = gethostbyname(hostname)print('host:', host) # 根据主机名获取主机地址获取操作系统类型import platformsystem = platform.system()if system == 'Window

2021-11-02 18:42:10 37

原创 软件研发流程

文章目录1、需求1.1、需求提出1.2、需求审批1.3、需求分析1.4、需求评审1.5、需求追踪1.6、最求变更1.7、需求验收2、开发2.1、编码开发2.2、代码评审2.3、开发自测2.4、代码扫描3、测试3.1、测试计划3.2、测试用例与评审3.3、测试执行3.4、缺陷管理3.5、测试出口标准4、部署发布4.1、版本发布策略与计划4.2、发布就绪检查4.3、部署发布4.4、生产验证1、需求1.1、需求提出1.2、需求审批1.3、需求分析功能需求:非功能需求:性能需求、安全需求、法律合规需求、

2021-11-01 21:51:22 64

原创 图解HIVE累积型快照事实表

2种情况列固定group by 后,列不固定

2021-10-26 22:25:29 42

原创 执行HIVE通用脚本Python实现

离线计算T+1hive -e

2021-10-24 13:52:33 16

原创 HIVE去重及其应用之UV统计

distinctgroup byrank partition bywhere =1

2021-10-20 20:51:04 105 1

原创 SQL的4种排名函数,附图表说明

函数名说明row_number行号rank排名dense_rank稠密的排名ntile按百分比分组排名SELECT score, ROW_NUMBER() OVER(ORDER BY score desc) _row_number, RANK() OVER(ORDER BY score desc) _rank, DENSE_RANK() OVER(ORDER BY score desc) _dense_rank,...

2021-10-18 16:30:19 16

原创 HIVE分区,附图说明

多字段分区动态分区静态分区

2021-10-15 22:19:35 68

原创 Python生成扫雷地图(并非游戏实现)

Python生成扫雷地图(并非游戏实现)输入:行数m、列数n、地雷数k输出:随机扫雷地图第一步,生成地图和随机地雷第二步,没有地雷的格子填充数字,该数字表示周边地雷总数Python生成随机扫雷地图

2021-09-23 18:06:58 318

原创 Emoji表情分类整理,写blog速查用

emoji分类人脸心手身体五官状态自然天气动物植物宇宙物体电器娱乐艺术衣着学习办公运动饮品食品果蔬地点建筑交通符号箭头数学时间

2021-09-19 13:31:06 111

原创 图解并行思想HIVE获取消费金额topN的用户ID

场景从10亿用户中 获取 消费前10000的 用户IDuidamount123.4827888.33…1000000000367.55错误方案SELECT uid FROM t ORDER BY amount DESC LIMIT 10000;并行思想可行方案SELECT uid,amount FROM (SELECTuid,amount,RANK() OVER (PARTITION BY uid % 50 ORDER BY amou

2021-09-09 01:09:03 98

原创 图解Spark商品关联分析

文章目录业务分析原理按订单关联按用户关联业务分析原理按订单关联import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.ml.fpm.FPGrowthimport org.apache.spark.rdd.RDDobject Hello { def main(args: Array[String]): Un

2021-09-03 23:14:27 89

原创 大数据(5m)ClickHouse极速入门

文章目录简介列式存储的优势安装简介ClickHouse:开源的 高效的 列式存储的 OLAP 数据库管理系统支持使用SQL 实时生成分析报告列式存储的优势行式列式OLAP场景下宽表居多,假设从100列的宽表中只取5列,那么I/O将大幅减少(相对与横向方式)列式数据更容易压缩安装...

2021-09-01 13:04:51 59

原创 大数据(8y)Spark3.0内核

文章目录

2021-08-30 14:27:54 114

原创 旅游经验总结(不定更)

文章目录时间装备软件、方式时间选非节假日出发日:周一周二周三周四出发时间:早上7点返程日:周二周三周四周五返程时间:早上7点、晚上20点(前提是23点能回到家)装备软件、方式...

2021-08-28 12:08:16 41

原创 读书有用论

文章目录1、前言1.1、现象1.2、受害1.3、理想破灭2、教育是什么?2.1、初等教育2.2、中等教育2.3、高等教育2.4、中国教育3、中国大学有多垃圾?4、分析当前宏观经济5、出路5.1、选错专业怎么办?5.2、先博后渊5.3、优先学习通用技能5.4、实践出真知1、前言1.1、现象众多远山农村子弟,努力考学,却因专业天坑导致就业困难B乎上几乎所有专业都在劝退阶级固化话题热议不少重本理工科毕业生从事与本专业无关的工作,比如转行、销售研究生同学 与实验室经历了6年的爱情长跑,毕业后竟然被迫

2021-08-28 11:27:43 52

原创 大数据(0d)用户行为日志分析

文章目录架构埋点数据设计数据采集离线分析实时分析架构埋点:用于网站分析的数据采集方法Nginx(engine x):高性能的HTTP和反向代理web服务器埋点数据设计数据类别说明示例示例指标页面事件点击关注、取消关注曝光启动错误…数据采集Flume=>Kafka=>FlumeSparkStreaming消费Kafka离线分析Spark通过写HBase实时分析...

2021-08-28 10:02:33 59

原创 大数据(5e)Spark之Scala读写HBase之Phoenix表

Phoenix建表依赖写HBaseConfiguration.create读phoenixTableAsDataFrame

2021-08-28 09:59:12 89

原创 大数据(4h)Kafka经验小结(不定更)

文章目录Kafka数据维持时间Kafka副本数策略Kafka主题数设定Kafka分区数设定Kafka挂了咋办?Kafka数据积压内存优化主题策略、分区策略Kafka数据维持时间建议3天Kafka副本数策略建议2Kafka主题数设定一个类型的日志建立一个分区Kafka分区数设定创建单分区主题测试该主题的生产者吞吐量和消费者吞吐量(使用内置脚本)分区数=吞吐量预期/min(吞吐量生产者,吞吐量消费者)分区数=吞吐量_{预期}/min(吞吐量_{生产者},吞吐量_{消费者})分区数=吞吐量预

2021-08-26 23:08:11 84

原创 ElasticSearch集群部署

文章目录1、预备知识1.1、检索1.2、如果用MySQL来做检索1.3、倒排索引2、ElasticSearch3、ELK1、预备知识1.1、检索以检索海南香蕉为例:层级查找方式检索:找食品,食品中找水果,水果中找香蕉,香蕉中找海南香蕉关键词方式检索:输入关键词海南香蕉1.2、如果用MySQL来做检索SELECT * FROM goods WHERE name LIKE '%香蕉%';即使对name创建索引,该查询依然是全表扫码(可以在开头加EXPLAIN来验证)也就是说,索引失效了;关系

2021-08-25 10:16:04 63

原创 Python工程师Java之路(q)Properties

文章目录Properties是啥?Properties应用场景补充一个Scala版的Properties是啥?import java.util.Properties;public class Hello { public static void main(String[] args) { // 创建对象 Properties p = new Properties(); // 加入键值对 p.put("key1", "value

2021-08-23 20:18:50 57

Keras英译中seq2seq简洁示例

Keras【极简】seq2seq英译中示例,附带语料以及训练500次后的模型

2019-02-21

自然语言处理文本分类实验

Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA:含文本10分类语料、机器学习算法、深度学习算法、专家系统,文本分类结果及结论

2020-09-27

Python程序写诗【1分钟】古诗词生成

Python词向量gensim文本生成,训练【一分钟】,诗词歌赋【一秒生成】

2019-02-11

Spark中文分词+文本分类.rar

Scala中文分词+SparkML逻辑回归 实现 中文文本分类

2021-03-25

Python一分钟生成古诗词

Python文本生成程序,从零训练词向量,一分钟生成古诗对联~

2019-01-31

hadoop-3.1.0.rar

适用于Windows10+IDEA上开发hadoop3.13的安装包(或者叫:压缩包;依赖) https://yellow520.blog.csdn.net/article/details/115712233

2021-04-14

NLP文本10分类EXCEL

用于自然语言处理的文本10分类语料,xlsx格式,数据量19467,分别为: [('science', 2093), ('car', 2066), ('finance', 2052), ('sports', 2017), ('military', 2007), ('medicine', 2000), ('entertainment', 1906), ('politics', 1865), ('education', 1749), ('fashion', 1712)]

2020-09-19

AI古诗生成2021版.rar

Python程序写诗【训练1分钟】古诗生成,原创链接: https://yellow520.blog.csdn.net/article/details/86726619

2021-06-20

ClickHouse2021年的安装包

解压后有4个ClickHouse的安装包

2021-09-01

ElasticSearch6.6压缩Linux压缩包

ElasticSearch6.6+kibana-6.6.0+elasticsearch-analysis-ik-6.6

2021-08-25

中国行政区划(更新至2018-10-31)

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-14

segment.rar

Java+Maven实现中文分词:https://yellow520.blog.csdn.net/article/details/115035978

2021-04-06

region2019.xlsx

中国行政区划2019(2020年采集),采集自国家统计局http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/

2020-05-28

离线数仓安装包.rar

亲测可用的JDK、Hadoop、HIVE安装包,配套博文: https://yellow520.blog.csdn.net/article/details/112253651

2021-01-06

大数据入门HIVE和MySQL安装包

配套专栏:https://blog.csdn.net/yellow_python/category_10582173.html

2020-12-25

大数据入门安装包Hadoop、JDK等

配套本专栏(https://blog.csdn.net/yellow_python/category_10582173.html)的大数据入门安装包

2020-12-25

2020中国省市拼音.xlsx

2020年中国一级和二级行政区划的【驼峰拼音】,一共三百多条数据,另附行政区划全称和简称,说得够清楚了,下了就不要给差评。

2020-07-21

中国行政区划【更新至2018-10-31】

中国行政区划(更新至2018-10-31),数据采集于2019年采集。 采集网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2018/index.html

2019-03-27

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除