自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 大数据框架原理简介

针对上篇文章遗留问题联邦学习之一几亿级别的数据量架构如何设计且如何实现要解决这个问题 那么咱首先要会大数据处理框架的相关内容这篇文章咱们走进大数据处理的世界首先咱们要理解大数据相关的概念和原理 才能很好的使用这些组件和设计大数据处理架构flume sqoop 数据仓库 ETL ODS Data Mart OLTP OLAP 数据集市咱一一分析原理flumesqoopHadoop和关系数据库服务器之间传送数据数据仓库数据仓库是供战略决策使用的数据基本不更新的反应历史变化的数据DW:D

2020-12-29 20:59:03 622

原创 联邦学习之一

联邦学习的概念简单来说,联邦学习是把 不同数据源 的数据 联合训练 ,得到更好的模型在进行机器学习的过程中,各参与方可以借助其他方数据进行联合建模各方无需共享数据资源,数据不出本地情况下,进行联合训练,建立共享的机器学习模型联邦学习的意义联邦学习是一种保护数据解决数据孤岛的一种机器学习方法除了数据孤岛,还有可能存在数据隐私安全问题联邦学习的分类企业的数据孤岛或者联邦学习的应用场景视觉横向联邦学习系统同为目标检测任务各个机构标注的数据集不同各个

2020-12-27 21:09:19 1068

原创 Jeecgboot Feign、分布式压测、分布式任务调度

分布式压测需求场景一些关键接口需要压测到很高的QPS需要设置更多的线程去模拟虚拟用户去请求接口假如需要模拟2万个用户因为jemeter使用java语言开发每创建一个线程jvm默认会为每个线程分配1M的堆栈内存空间那么就需要20G内存一般压测机器是4核8G或8核16G因此需要更多台机器共同完成施压请求分布式压测示意图meter分布式测试环境中有两个角色:Master和Slaves1、Master节点:向参与的Slaves节点发送测试脚本,并聚合Agent节点的执行结果,部署一台2、Slaves节点:

2020-12-22 17:34:59 902

原创 JeecgBoot单体升级微服务之二

前言这篇文章咱们继续单体升级微服务的过程先说下网络下载慢问题我用的是5G的网络通过测速工具测速 下载速度可以达到6M/秒左右但下载速度怎么还没鱼哦????爬行速度快?下了半天了 动都不动....这种情况不是网络问题导致的 而是由于docker下载源是国外地址导致的 所以需要切换为国内的数据源vim ~/.docker/daemon.json 添加"registry-mirrors": ["https://a5hmunh5.mirror.aliyuncs.

2020-12-20 17:51:09 1354

原创 JeecgBoot单体升级微服务之一

Nacos安装1.下载镜像docker  pull nacos/nacos-server2.启动镜像docker run -d -p 8848:8848 --env MODE=standalone  --name nacos  nacos/nacos-serverNacos官方文档https://nacos.io/zh-cn/docs/quick-start-d.

2020-12-19 23:22:30 948 1

原创 Flink window 用法介绍

SinkFlink没有类似spark中foreach方法 让用户进行迭代操作虽有对外的输出操作 都要利用Sink完成 最后通过类似如下方式完成整个任务最终输出操作stream.addSink(new MySink(xxxx))官方提供了一部分框架的Sink 除此之外 需要用户自定义实现sinkKafka既然从kafka sensor主题中消费消息 所以需要有一个往该队列中发送消息的生产者./bin/kafka-console-p

2020-12-18 11:42:47 286

原创 Flink用法介绍

自定义source只需要传入一个SourceFunction即可val stream4 = env.addSource( new MySensorSource() )举例说明:随机生成传感器数据无非就是通过生成随机数据的方式组装成传感器数据而已Transform转换算子val streamMap = stream.map { x => x *

2020-12-17 20:57:43 630

原创 Flink部署、使用、原理简介

通过安装包方式部署下载地址https://archive.apache.org/dist/flink/flink-1.7.2/flink-1.7.2-bin-hadoop27-scala_2.11.tgz下载之后 解压启动flink访问flink web uihttp://localhost:8081运行flink demo程序启动7777端口服务nc -lk 7777运行flink wordcount streamjar包传入 7777端口bin/fl

2020-12-16 13:51:24 526 1

原创 流处理开源框架Flink原理简介和使用

spark kafka stream 示例大数据处理工具Kafka、Zk、Spark这篇文章描述了 如何搭建kafka、zk和spark集群环境本篇文章先简要的举个demo来说明下代码实现过程源码https://gitee.com/pingfanrenbiji/spark-scala-examples/blob/master/src/main/scala/com/sparkbyexamples/spark/kafka/WriteDataFrameToKafka.scala通过spark往kaf

2020-12-15 16:40:54 353 1

原创 大数据处理工具Kafka、Zk、Spark

搭建kafka和zk集群环境安装环境MAC操作系统VMware Fusion虚拟机3个centos7服务器安装虚拟机 飞机票 安装虚拟机Centos系统并安装Docker过程记录安装包下载https://kafka.apache.org/downloads.html服务器环境准备安装文件上传工具yum install lrzsz查看服务器ipip addr showcentos-1 192.168.84.128&nbs

2020-12-13 21:17:47 196

原创 微信小程序通用功能设计和实现

前言介绍下最近一段时间内在公司做的一个微信小程序小项目几个核心功能的设计流程和部门代码实现微信小程序登陆获取手机号微信OCR识别微信人脸识别微信支付备注:本文章没有和公司相关的私密信息;每个功能都是通用的插件微信小程序登陆通过code获取secretKey和openId的接口封装# 这个appId是指小程序id 在微信公众平台申请小程序的时候会生成WxMaService wxMaService=WxMaConfiguration.getMaServic

2020-12-12 12:47:39 6050

原创 信用评分系统运行原理下篇

前言信用评分系统运行原理上篇信用评分系统运行原理中篇-分箱逻辑绘制相关性系数热力图corr = train.corr() # 计算各变量的相关性系数xticks = ['x0','x1','x2','x3','x4','x5','x6','x7','x8','x9','x10'] # x轴标签yticks = list(corr.index) # y轴标签fig =&n.

2020-12-10 15:51:32 670

原创 信用评分系统运行原理中篇-分箱逻辑

前言本篇承接上篇信用评分系统运行原理上篇分箱逻辑比较复杂 设计到很多的算法为了确保分析的准确性 我通过pycharm编译器Debug的方式跑这段代码一步一步的分析代码的实现逻辑编译器环境的准备python代码准备编译器配置python依赖包安装pip3 install numpypip3 install pandaspip3 install matplotlib==3.2.0pip3 install.

2020-12-08 18:11:28 660 1

原创 信用评分系统运行原理上篇

源码https://gitee.com/pingfanrenbiji/Credit-Card-Score在jupyter中打开该项目导入代码库# Numpy是以矩阵为基础的数学计算模块,纯数学import numpy as np# pandas是提供高性能易用数据类型和分析工具的第三方库import pandas as pd# 绘制图形import matplotlib.pyplot a.

2020-12-07 18:51:25 505

原创 机器学习预测信贷风险

数据资源https://gitee.com/pingfanrenbiji/resource/tree/master/%E9%87%91%E8%9E%8D%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/%E7%AC%AC%E4%B8%89%E7%AB%A0%E7%AC%AC%E4%B8%89%E9%A2%98导入代码库import pandas as pdimport numpy as np导入样本loan_his

2020-12-05 12:12:26 1668

原创 使用Mysql工具进行数据清洗

数据资源https://gitee.com/pingfanrenbiji/resource/blob/master/%E9%87%91%E8%9E%8D%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/%E7%AC%AC%E4%B8%80%E7%AB%A0/database1/transaction_info.csv将csv导入数据库一路continue有一份追加数据https://gitee.com/pingfanrenbiji/resource/blob/m

2020-12-04 22:40:00 1225

原创 产品运营周报报表分析案例

https://gitee.com/pingfanrenbiji/resource/blob/master/%E9%87%91%E8%9E%8D%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/%E7%AC%AC%E4%BA%8C%E7%AB%A0%E7%AC%AC%E4%BA%8C%E9%A2%98/toushibiao.xlsx对这张表进行分析得出有价值的内容从这张数据表中可以看出有这些字段Transaction_date 交易日期 几月几号Date-

2020-12-03 15:58:30 958

原创 金融数据分析熟练使用Excel

需求https://gitee.com/pingfanrenbiji/resource/blob/master/%E9%87%91%E8%9E%8D%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/%E7%AC%AC%E4%BA%8C%E7%AB%A0%E7%AC%AC%E4%B8%80%E9%A2%98/active.xlsx该表格中有记录了 每天的总注册人数和每天的活跃人数计算每天相对前一天新增的人数第一步第二步单元格右下脚往下拉计算日期对应的星期

2020-12-02 21:29:04 1018

原创 利用机器学习进行金融数据风险评估

需求使用数据1,用python语言构建逻辑回归模型,分析预测目标人群发生风险交易的概率(1)以 “python.txt”命名完整python执行代码,建模流程完整,主要步骤代码注释规范:有读入或导入样本、分析特征变量、查看数据维度、建立模型、测试模型相关步骤。(2)能测试评估模型有效性。以“score_oos.xlsx”命名保存验证集OOS结果(素材有模板),结果文件字段内容完整,结论描述完整,计算正确,AUC评估值不小于0.5。所需字段及相关说明:uid(用户编号)prob(风险交易概率,越大

2020-12-01 16:07:47 2957 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除