lbship-CSDN博客

原创 BI自动化之Python自动发报告(查询数据库生成报表和图片嵌入邮件)

先看看效果图代码：1.生成图片新建generate_picture.py，主要功能是查询数据库，生成图片和附件用于嵌入邮件import matplotlib.pyplot as pltfrom odps import ODPSimport datetimeimport timeimport osimport shutilfrom matplotlib import style# print(plt.style.available)#先清除文件夹底下所有文件p...

2022-02-15 10:27:42 3127

原创利用Flink CDC和Flink SQL构建实时数仓Flink写入Doris

一、MySQL 开启binlog日志、创建用户1.开启bin logMySQL 8.0默认开启了binlog，可以通过代码show variables like "%log_bin%";查询是否开启了，show variables like "%server_id%";查询服务器ID。上图分别显示了bin long是否开启以及bin log所在的位置。2.创建用户CREATE USER 'flinktest' IDENTIFIED BY 'root';GRANT SELECT,

2021-11-14 11:46:28 14184 3

原创 Python选基金(爬虫+策略)

代码如下import requestsimport timeimport reimport pymysql#获得所有基金代码def getfundCode(): url = 'http://fund.eastmoney.com/js/fundcode_search.js' r = requests.get(url) fundcodelist=re.findall(re.compile('\[(.*)\]',re.S),r.text)[0].strip('[').str

2021-06-25 11:33:55 8820 12

原创免费软件制作大屏酷炫报表-Davinci安装与使用

一、简介 Davinci 是一个 DVaaS（Data Visualization as a Service）平台解决方案，面向业务人员/数据工程师/数据分析师/数据科学家，致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用，也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用，并支持高级交互/行业分析/模式探索/社交智能等可视化功能。官网在这里。安装环境CentOS8Mysql8二、安装1.下载wgetht...

2021-05-31 12:08:55 2288

原创 SuperSet安装与使用

一、安装1.安装docker如果没有安装docker可以看这里K8S原理、安装和部署2.安装dockers-composesudo curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-composesudo chmod +x /usr/local/bin/docker-comp

2021-05-26 14:10:39 1415 2

原创 Flink on K8s安装与使用

1.安装K8S2.安装HelmHelm可以帮忙管理k8s的应用。curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/master/scripts/get-helm-3chmod 700 get_helm.sh./get_helm.sh

2021-05-19 11:13:10 1399

原创 K8S原理、安装和部署

参考:Kubernetes中文文档一、K8S架构和原理首先看一下K8S的架构图，方便对组件有所了解Master主要有以下组件:apiserver: K8s的网关，提供了资源操作的唯一入口，并提供认证、授权、访问控制、API注册和发现等机制，； controller manager负责维护集群的状态，比如故障检测、自动扩展、滚动更新等，类似于CRUD，不直接调度node节点，而是把指令给Apiserver存储在etcd中； scheduler负责资源的调度，按照预定的调度策略将Pod调

2021-05-08 10:04:12 1072 3

原创基于机器学习预测用户流失

一、背景和目标用户运营是CRM运营中重中之重的一项工作，在人工智能时代，我们可以探索用AI帮助我们做一些用户运营的工作，之前我写了几篇关于快消行业与AI技术相结合的文章：1.利用RFM模型对餐饮客户进行分析2.利用Apriori关联算法看看客户最喜欢买什么3.利用ARMA算法对销售进行预测4.利用深度学习和机器学习对餐饮客户进行分类本次探索一下利用AI来预测用户流失。二、数据采集和准备数据采集分为几个模块:用户基本信息、消费产品偏好、消费渠道偏好、LBS信息...

2021-03-04 14:06:46 2259 2

原创 Apache Doris安装与使用

社区推荐是自己编译,官网在这里，过程相当简单，就一句话 sh build.sh，但是在编译过程中容易遇到各种失败，例如Failed to download DataTables.zip during the compilation of the third-party library就需要更改下载数据源，更改完这个可能还有其他问题，这里就用已编译版本了。Doris架构也很简单，分成FE(front end)和BE(back end):FE 的磁盘空间主要用于存储元数据，包括日志和 image。通常从

2021-01-27 16:35:14 8777 5

原创 Flink解析kafka的json字段并利用Flink CEP实时监控订单数据写入MySQL

上篇博客写了Flink接入Kafka数据并实时写入数据库实时展示，这次利用Flink CEP进行实时监控。实现目标如下：1.如果同一个顾客买了5次牛奶，输出用户id，时间2.如果2分钟内某个产品被卖了10个，输出商品，时间3.如果一个顾客来了10次，输出用户id，初始消费时间，最后消费时间先了解一下Flink CEP 开发过程:a.定义Patternb.把pattern应用于输入流CEP.pattern(inputstream, pattern) 变成patternstr..

2021-01-07 16:38:00 5025

原创 Python请求微信公众号解析json写入Maxcompute

实现过程: Python发送请求获得微信公众号返回的json数据，微信公众号接口看这里。利用Python的json包解析出来需要的字段，利用阿里云的pyODPS包，写入阿里云的maxcompute代码如下:from odps import ODPSfrom odps.models import Schema, Column, Partitionimport requestsimport jsonimport datetimeimport redis#参数定义#r = redis.

2020-12-15 10:33:35 546 2

原创 SQL求会员每次消费时间间隔和平均消费间隔

有一个表记录了每个会员的消费时间，如下，有的会员消费了N次，有的会员只消费过一次，现在要求出每个会员两两之间消费时间间隔select *,LEAD(purtime, 1, 0)over(partition by userid order by purtime) as lastpurtime from #test order by userid,purtime看到...

2020-11-17 10:31:52 4261 5

原创 Flink实时读取Kafka数据写入Clickhouse并实时展示

1.启动ZooKeeper./zkServer.sh start.2.启动Kafka./kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties3.创建topic./kafka-topics.sh --create --zookeeper 192.168.226.10:2181 --replication-factor 1 --partitions 1 --topic test查看是否成功./kafka-

2020-10-30 17:43:05 8712 6

原创 SQL Server不用创建函数，实现Split函数指定分隔符分割以及判断是否为整数

例如有一个字段是姓名/电话，分隔符是"/",姓名长度不一，网上很多教程都是创建函数来实现，其实不用创建函数也可以实现,这里只需要用到charindex这个函数就够了。例子，:用法select left([info],charindex('/',[info])-1) as names ,right([info],len([info])-charindex('/',[info])) as phonefrom #test效果:...

2020-05-22 15:09:19 1412

原创 Tableau计算同比和环比任意天数据

网上看了很多帖子，要实现同比和环比都是用lookup函数，但是如果我要同时看很多维度的同比，数据并没有顺序，操作起来就比较麻烦了。现在用一个比较简单的fixed函数来实现这个功能。看看fixed函数的用法:例如，我要看某城市昨天相比上周同一天的销售增长。首先，计算昨天的销售额，创建计算函数{FIXED [StoreID] : SUM(if [SalesDate]=TODAY()-1 then [netsales] end)}然后计算上周同一天的销售额最后计...

2020-05-12 18:18:51 12573 1

原创 Tableau实现增量刷新

为了节省tableau的刷新时间，有时候我们只需要增量刷新就可以了，设置如下图:选择菜单栏的数据-提取刷新-所有行-增量刷新，然后再选择对应的增量标识符就可以了，比如我选择的是日期(DOB)当然你也可以选择前多少行或者根据筛选器条件进行筛选刷新...

2019-11-22 15:09:30 5911 7

原创 SQL查询的时候同时显示明细和总计

当我们要查询明细和总计的时候，通常使用的方法是方法一：select item ,sum(xx) from xxx group by itemunionselect null ,sum(xx) from xxx方法二：但是SQL server其实有两个简单的函数可以实现上面的功能Rollup ():分组同时求明细Grouping():判断是否是分组的列，1表示聚合列...

2019-08-23 10:28:43 11959

原创触发器设置错误导致sa账号无法登陆Logon failed for login 'sa' due to trigger execution

前几天手痒，练习触发器，本来想查看谁登陆，用什么机器登陆，结果参数设置错误，没有把正确的账号和机器名称添加白名单，导致失败了，sa被锁。Logon failed for login 'sa' due to trigger execution到我创建的触发器看，疯了，添加了三个不搭噶的主机，用户名，关键LOGINAME这个用户名也没有密码啊。跑到数据库主机，用本地模式登陆，还是不...

2019-08-22 13:49:09 1789 4

原创 Python连接AZURE Data Warehouse

talk is cheap，直接上代码import pyodbcServer = "xxxxxx"DB = "txxxx"User = "xxxxx"Password = "xxxxxx"conn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=' + Server + ';DATABASE=' + ...

2019-08-16 15:03:16 603

原创从Mysql搬数据到SQL server报错 The (maximum) expected data length is 28, while the returned data length is 0

前不久写了一篇文章跨数据库数据传输:利用ODBC从MySQL传输数据到SQL server介绍了通过ODBC的方式，把数据从MySQL迁移到SQL Server,但是在迁移的过程中，你会发现很多头疼的报错。比如下面这条:Msg 7347, Level 16, State 1, Line 1OLE DB provider 'MSDASQL' for linked server 'MYSQL...

2019-08-09 10:16:22 1440

原创 SQL server求移动平均、rolling sum滚动前多少行求和

上一篇讲了用tableau的实现方法Tableau实现累加多少天求和rolling_sum()这一篇写一下用SQL的方法实现.要实现当前月份和之前2个月的数据相加，代码很简单，直接使用over函数和 rows between n preceding and n following就可以了。代码:SELECT [salesdate] ,[Region] ,s...

2019-06-24 18:25:44 7096

原创 Tableau实现累加多少天求和rolling_sum()、移动平均

描述:比如求过去5天的累加和,在Excel里面很简单，公式一拖就可以了那么tableau该如何实现呢？这里用到了tableau的WINDOW_SUM函数首先创建计算字段然后拖过去，直接就实现了，是不是很简单...

2019-06-14 17:32:37 13856

原创 Tableau计算某个度量占总度量百分比和相对某度量的百分比

描述:第一列是销售额，第二列是销售额占比效果:方法一：使用total函数：创建一个计算字段：sum([sale])/TOTAL(sum([sale]))，然后把这个字段拖过去就可以了。方法二：复制一下字段出来拖过去，然后右键-快速表计算-总额百分比方法三:分析-百分比-列有的人可能会遇到另一个问题，假如不是求某个度量占总度量的百分...

2019-06-14 15:04:17 19190

原创禁用SQL Server的SSRS日志追踪

今天某台服务器C盘空间剩余0Kb，整个服务器都瘫痪了，利用WizTree软件分析文件定位是SQL Server的Reporting Service每分钟产生一个日志文件，已经产生好几年了，居然有几百万条记录，删除都用了好几个小时才搞定的。日志的文件夹在:C:\Program Files\Microsoft SQL Server\MSRS10.MSSQLSERVER\Reportin...

2019-06-06 10:40:27 1128

原创基于深度学习LSTM算法生成音乐

整套架构图一、背景知识1.概念（来自百度百科）:notes(音符):用来记录不同长短的音的进行符号。全音符、二分音符、四分音符、八分音符、十六分音符是最常见的音符。是五线谱中最重要的元素chord(和弦):和弦是乐理上的一个概念，指的是一定音程关系的一组声音。将三个和三个以上的音，按三度叠置的关系，在纵向上加以结合，就成为和弦如果无法使用TensorFl...

2019-04-15 14:10:18 15854 35

原创 Linux上安装TensorFlow和简单使用

一、环境python3.5Linux Red Hat 4.8.5参考官网二、安装1.输入命令yum install python3-dev python3-pip python-virtualenv2.创建虚拟环境virtualenv --system-site-packages -p python3 tensorflow如果要删除虚拟环境的话，直接删除文件...

2019-04-12 18:37:12 2037

原创 Hive使用python编写的自定义函数UDF进行ETL

Hadoop使用Streaming技术来替代Java编程，允许用户使用其他语言实现业务逻辑处理Streaming采用UNIX标准输入输出机制（stdin/stdout）作为应用程序和Hadoop计算框架之间的数据接口标准只要符合标准I/O接口，开发人员便可以选择任意语言编写Map/Reduce模块下面来做个测试：表里一共有两列数据，当第二列的sex...

2019-04-11 10:44:20 3035

原创利用Spark构建分布式电影协同过滤推荐系统

一、数据采集使用MovieLen的开放数据集作为数据源，包含了6000个用户对4000个电影的评分数据，大概有100万条评分数据。数据集也可以从这个网址下载。数据集一共有3个文件：movie.date（电影ID::电影名称::标签）1::Toy Story (1995)::Animation|Children's|Comedy2::Jumanji (1995)::Adventure...

2019-04-09 10:16:35 1673

原创实时大数据平台搭建Flume+Kafka+HDFS+SparkStreaming

整体架构图一、python模拟生成日志import randomimport timeiplist=[101,198,65,177,98,21,34,61,19,11,112,114]urllist=['baidu.com','google.com','sougou.com','360.com','yahoo.com','yisou.com']mobile=['xiaomi'...

2019-04-06 13:34:10 1944 11

原创数据分析之利用ARMA算法对销售进行预测

一、目标销售数据是随着时间变化的序列，通过对未来的销售进行预测，方便对人员、物料等各种资源投入的把控，控制好库存，减少浪费，也可以制定未来的营运策略，提高管理效率。这里使用ARMA（AutoRegressive Moving Average）算法，不仅与前P期的序列值有关，也与前q期的随机扰动有关。二、数据采集和处理1.数据采集采集随着时间变化的销售数据，为了...

2019-03-31 16:15:48 7862 8

原创数据分析之利用Apriori关联算法看看客户最喜欢买什么

一、背景和目标源于沃尔玛的啤酒和尿布的经典营销案例，把这两个看似并无太大关系的商品联系到一起了。这里就用到了关联算法。我们今天就用关联算法对某餐饮连锁企业的商品进行关联分析，观察用户的消费习惯。环境：python3.5+pycharm算法：Apriori二、数据采集和处理原始数据是长这样的,不过这样的数据并不利于进行关联分析:不过阿里云分析型数据库ADB提供了强大的gr...

2019-03-30 20:12:47 851

原创跨数据库数据传输:利用ODBC从MySQL传输数据到SQL server

要做数据库迁移和增量备份，把MySQL数据每天移动到SQL server中1.设置ODBC工具首先电脑要先安装好 MySQL的ODBC connector，百度一下就可以了。安装完成之后，在控制面板的ODBC数据源管理里面就可以看到了。填好相关的连接信息。记住这个datasource name，等会儿要用2.在SQL server中设置link3.测试SELEC...

2019-03-23 11:34:57 859

原创 SQL Server去除字段中的双引号和多层引号嵌套处理

一、去除双引号通过MySQL导出的数据，居然有双引号，没办法插入到SQL server大概是这样的:有两种方法解决：1.从源头避免导出选项的时候，文本限定符选择无就可以了2.通过replace函数进行清洗：用法如下SELECT top 10 replace([Column 0],'"','') FROM xxx结果:二、多层引号嵌套问题...

2019-03-22 20:31:39 9199

原创数据分析之利用深度学习和机器学习对餐饮客户进行分类

一、目标在上一篇博客中，利用RFM模型，使用Kmeans算法，把客户分成了三类，并打好标签，生成了带标签的训练数据。接下来利用这些打好标签的分类数据，使用深度学习和机器学习方法对未打标签的客户进行分类。环境：python3.5机器学习:随机森林深度学习:基于TensorFlow的TFlearn，这个用起来跟sklearn比较相似二、数据采集和分析代码...

2019-03-17 19:25:36 2225

原创数据分析之利用RFM模型对餐饮客户进行分析

一、背景和目标随着大数据时代的到来，很多公司都建立了数据仓库，对分散在各处的数据进行收集，这只是解决了数据应用中的数据孤岛问题，但是不知道如何对数据进行使用。博主打算利用经典的RFM模型来挖掘数据，对某连锁餐饮行业客户进行分类，分成高价值客户、一般价值客户和普通价值客户，方便针对不同客户制定不同的营销策略利用的工具:1.Python3.52.SQL Server20143.Ta...

2019-03-17 16:10:10 4314

原创 BI自动化之Python自动查询数据库生成Excel并每天定时邮件发送

一、目的1.每天自动查询SQL数据2.生成Excel并作为附件邮件发送3.每天定时自动执行二、开发环境1.Python3.52.SQL server2014三、代码一两个小时弄的，代码可能有点乱，凑合着看吧import pymssqlimport pandas as pdimport time,datetimeimport smtplibimport...

2019-02-24 17:44:28 6716 1

原创 Python使PooledDB连接池连接SQL Server2014

使用连接池有诸多好处：1.可以减少关闭连接的次数，提示连接的速度2.进程内线程共享连接参数定义：1. mincached，最少的空闲连接数，如果空闲连接数小于这个数，pool会创建一个新的连接2. maxcached，最大的空闲连接数，如果空闲连接数大于这个数，pool会关闭空闲连接3. maxconnections，最大的连接数，4. blocking，当连接数达到最大的...

2019-02-23 19:26:57 3169

原创 Lambda架构:Python+Flume+Kafka+Hbase+SparkStreaming架构搭建

一、模拟网站实时产生数据1.利用python模拟产生日志这里的日志选用慕课网日志，原始的日志文件是这样的：需要进行处理，这里选用python脚本处理和模拟生成日志，代码如下：import timedef timeformate(s): s=s.split('/') years=s[2].split(':')[0] days=s[0] mon...

2019-01-06 15:31:36 1125 2

原创 Kafka启动后很快自动关闭进程

今天kafka启动之后，刚开始输入jps还有进程，大概几秒钟不一会儿就关闭了，我这边是-daemon守护进程的方式启动的，到kafka下面的logs文件夹查看server.log日志发现了报错[2019-01-05 11:02:00,473] INFO Unable to read additional data from server sessionid 0x0, likely serve...

2019-01-05 19:16:36 11073

原创 Flume远程实时采集Windows产生的log4j产生的数据

一、配置log4j.properties在IDEA的resource下面新建log4j.properties配置如下：主要定义了控制台和flume里面的日志格式，flumeAppender配置参考Flume官网log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout=org.apache.log4j.ConsoleAppen...

2018-12-29 11:50:10 2139

QlikView 教程 QV教程 QlikView官网指导含源文件

doris-flink-connector-flink-1.13.3-2.12-SNAPSHOT.jar

SSRS SQL Server 2012 Reporting Services高级教程 第2版 中文版带书签目录 完整版

SQL Server 2012 integration services SSIS高级教程 第2版 PDF电子书下载 带书签目录 完整版

空空如也

SSRS SQL Server 2012 Reporting Services高级教程第2版中文版带书签目录完整版

SQL Server 2012 integration services SSIS高级教程第2版 PDF电子书下载带书签目录完整版