- 博客(85)
- 资源 (4)
- 收藏
- 关注
原创 BI自动化之Python自动发报告(查询数据库生成报表和图片嵌入邮件)
先看看效果图代码:1.生成图片新建generate_picture.py,主要功能是查询数据库,生成图片和附件用于嵌入邮件import matplotlib.pyplot as pltfrom odps import ODPSimport datetimeimport timeimport osimport shutilfrom matplotlib import style# print(plt.style.available)#先清除文件夹底下所有文件p...
2022-02-15 10:27:42 3030
原创 利用Flink CDC和Flink SQL构建实时数仓Flink写入Doris
一、MySQL 开启binlog日志、创建用户1.开启bin logMySQL 8.0默认开启了binlog,可以通过代码show variables like "%log_bin%";查询是否开启了,show variables like "%server_id%";查询服务器ID。上图分别显示了bin long是否开启以及bin log所在的位置。2.创建用户CREATE USER 'flinktest' IDENTIFIED BY 'root';GRANT SELECT,
2021-11-14 11:46:28 13897 3
原创 Python选基金(爬虫+策略)
代码如下import requestsimport timeimport reimport pymysql#获得所有基金代码def getfundCode(): url = 'http://fund.eastmoney.com/js/fundcode_search.js' r = requests.get(url) fundcodelist=re.findall(re.compile('\[(.*)\]',re.S),r.text)[0].strip('[').str
2021-06-25 11:33:55 8606 12
原创 免费软件制作大屏酷炫报表-Davinci安装与使用
一、简介 Davinci 是一个 DVaaS(Data Visualization as a Service)平台解决方案,面向业务人员/数据工程师/数据分析师/数据科学家,致力于提供一站式数据可视化解决方案。既可作为公有云/私有云独立部署使用,也可作为可视化插件集成到三方系统。用户只需在可视化 UI 上简单配置即可服务多种数据可视化应用,并支持高级交互/行业分析/模式探索/社交智能等可视化功能。官网在这里。安装环境CentOS8Mysql8二、安装1.下载wgetht...
2021-05-31 12:08:55 2210
原创 SuperSet安装与使用
一、安装1.安装docker如果没有安装docker可以看这里K8S原理、安装和部署2.安装dockers-composesudo curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-composesudo chmod +x /usr/local/bin/docker-comp
2021-05-26 14:10:39 1344 2
原创 Flink on K8s安装与使用
1.安装K8S2.安装HelmHelm可以帮忙管理k8s的应用。curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/master/scripts/get-helm-3chmod 700 get_helm.sh./get_helm.sh
2021-05-19 11:13:10 1306
原创 K8S原理、安装和部署
参考:Kubernetes中文文档一、K8S架构和原理首先看一下K8S的架构图,方便对组件有所了解Master主要有以下组件:apiserver: K8s的网关,提供了资源操作的唯一入口,并提供认证、授权、访问控制、API注册和发现等机制,; controller manager负责维护集群的状态,比如故障检测、自动扩展、滚动更新等,类似于CRUD,不直接调度node节点,而是把指令给Apiserver存储在etcd中; scheduler负责资源的调度,按照预定的调度策略将Pod调
2021-05-08 10:04:12 1028 3
原创 基于机器学习预测用户流失
一、背景和目标 用户运营是CRM运营中重中之重的一项工作,在人工智能时代,我们可以探索用AI帮助我们做一些用户运营的工作,之前我写了几篇关于快消行业与AI技术相结合的文章:1.利用RFM模型对餐饮客户进行分析2.利用Apriori关联算法看看客户最喜欢买什么3.利用ARMA算法对销售进行预测4.利用深度学习和机器学习对餐饮客户进行分类本次探索一下利用AI来预测用户流失。二、数据采集和准备 数据采集分为几个模块:用户基本信息、消费产品偏好、消费渠道偏好、LBS信息...
2021-03-04 14:06:46 2110 2
原创 Apache Doris安装与使用
社区推荐是自己编译,官网在这里,过程相当简单,就一句话 sh build.sh,但是在编译过程中容易遇到各种失败,例如Failed to download DataTables.zip during the compilation of the third-party library就需要更改下载数据源,更改完这个可能还有其他问题,这里就用已编译版本了。Doris架构也很简单,分成FE(front end)和BE(back end):FE 的磁盘空间主要用于存储元数据,包括日志和 image。通常从
2021-01-27 16:35:14 8477 5
原创 Flink解析kafka的json字段并利用Flink CEP实时监控订单数据写入MySQL
上篇博客写了Flink接入Kafka数据并实时写入数据库实时展示,这次利用Flink CEP进行实时监控。实现目标如下:1.如果同一个顾客买了5次牛奶,输出用户id,时间2.如果2分钟内某个产品被卖了10个,输出商品,时间3.如果一个顾客来了10次,输出用户id,初始消费时间,最后消费时间先了解一下Flink CEP 开发过程:a.定义Patternb.把pattern应用于输入流CEP.pattern(inputstream, pattern) 变成patternstr..
2021-01-07 16:38:00 4771
原创 Python请求微信公众号解析json写入Maxcompute
实现过程: Python发送请求获得微信公众号返回的json数据,微信公众号接口看这里。利用Python的json包解析出来需要的字段,利用阿里云的pyODPS包,写入阿里云的maxcompute代码如下:from odps import ODPSfrom odps.models import Schema, Column, Partitionimport requestsimport jsonimport datetimeimport redis#参数定义#r = redis.
2020-12-15 10:33:35 461 2
原创 SQL求会员每次消费时间间隔和平均消费间隔
有一个表记录了每个会员的消费时间,如下,有的会员消费了N次,有的会员只消费过一次,现在要求出每个会员两两之间消费时间间隔select *,LEAD(purtime, 1, 0)over(partition by userid order by purtime) as lastpurtime from #test order by userid,purtime看到...
2020-11-17 10:31:52 4046 5
原创 Flink实时读取Kafka数据写入Clickhouse并实时展示
1.启动ZooKeeper./zkServer.sh start.2.启动Kafka./kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties3.创建topic./kafka-topics.sh --create --zookeeper 192.168.226.10:2181 --replication-factor 1 --partitions 1 --topic test查看是否成功./kafka-
2020-10-30 17:43:05 8542 6
原创 SQL Server不用创建函数,实现Split函数指定分隔符分割以及判断是否为整数
例如有一个字段是姓名/电话,分隔符是"/",姓名长度不一,网上很多教程都是创建函数来实现,其实不用创建函数也可以实现,这里只需要用到charindex这个函数就够了。例子,:用法select left([info],charindex('/',[info])-1) as names ,right([info],len([info])-charindex('/',[info])) as phonefrom #test效果:...
2020-05-22 15:09:19 1364
原创 Tableau计算同比和环比任意天数据
网上看了很多帖子,要实现同比和环比都是用lookup函数,但是如果我要同时看很多维度的同比,数据并没有顺序,操作起来就比较麻烦了。现在用一个比较简单的fixed函数来实现这个功能。看看fixed函数的用法:例如,我要看某城市昨天相比上周同一天的销售增长。首先,计算昨天的销售额,创建计算函数{FIXED [StoreID] : SUM(if [SalesDate]=TODAY()-1 then [netsales] end)}然后计算上周同一天的销售额最后计...
2020-05-12 18:18:51 12286 1
原创 Tableau实现增量刷新
为了节省tableau的刷新时间,有时候我们只需要增量刷新就可以了,设置如下图:选择菜单栏的 数据-提取刷新-所有行-增量刷新,然后再选择对应的增量标识符就可以了,比如我选择的是日期(DOB)当然你也可以选择前多少行或者根据筛选器条件进行筛选刷新...
2019-11-22 15:09:30 5715 7
原创 SQL查询的时候同时显示明细和总计
当我们要查询明细和总计的时候,通常使用的方法是方法一:select item ,sum(xx) from xxx group by itemunionselect null ,sum(xx) from xxx方法二:但是SQL server其实有两个简单的函数可以实现上面的功能Rollup ():分组同时求明细Grouping():判断是否是分组的列,1表示聚合列...
2019-08-23 10:28:43 11188
原创 触发器设置错误导致sa账号无法登陆Logon failed for login 'sa' due to trigger execution
前几天手痒,练习触发器,本来想查看谁登陆,用什么机器登陆,结果参数设置错误,没有把正确的账号和机器名称添加白名单,导致失败了,sa被锁。Logon failed for login 'sa' due to trigger execution到我创建的触发器看,疯了,添加了三个不搭噶的主机,用户名,关键LOGINAME这个用户名也没有密码啊。跑到数据库主机,用本地模式登陆,还是不...
2019-08-22 13:49:09 1696 4
原创 Python连接AZURE Data Warehouse
talk is cheap,直接上代码import pyodbcServer = "xxxxxx"DB = "txxxx"User = "xxxxx"Password = "xxxxxx"conn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=' + Server + ';DATABASE=' + ...
2019-08-16 15:03:16 574
原创 从Mysql搬数据到SQL server报错 The (maximum) expected data length is 28, while the returned data length is 0
前不久写了一篇文章跨数据库数据传输:利用ODBC从MySQL传输数据到SQL server介绍了通过ODBC的方式,把数据从MySQL迁移到SQL Server,但是在迁移的过程中,你会发现很多头疼的报错。比如下面这条:Msg 7347, Level 16, State 1, Line 1OLE DB provider 'MSDASQL' for linked server 'MYSQL...
2019-08-09 10:16:22 1368
原创 SQL server求移动平均、rolling sum滚动前多少行求和
上一篇讲了用tableau的实现方法Tableau实现累加多少天求和rolling_sum()这一篇写一下用SQL的方法实现.要实现当前月份和之前2个月的数据相加,代码很简单,直接使用over函数和 rows between n preceding and n following就可以了。代码:SELECT [salesdate] ,[Region] ,s...
2019-06-24 18:25:44 6817
原创 Tableau实现累加多少天求和rolling_sum()、移动平均
描述:比如求过去5天的累加和,在Excel里面很简单,公式一拖就可以了那么tableau该如何实现呢?这里用到了tableau的WINDOW_SUM函数首先创建计算字段然后拖过去,直接就实现了,是不是很简单...
2019-06-14 17:32:37 13649
原创 Tableau计算某个度量占总度量百分比和相对某度量的百分比
描述:第一列是销售额,第二列是销售额占比效果:方法一:使用total函数:创建一个计算字段:sum([sale])/TOTAL(sum([sale])),然后把这个字段拖过去就可以了。方法二:复制一下字段出来拖过去,然后右键-快速表计算-总额百分比方法三:分析-百分比-列有的人可能会遇到另一个问题,假如不是求某个度量占总度量的百分...
2019-06-14 15:04:17 18358
原创 禁用SQL Server的SSRS日志追踪
今天某台服务器C盘空间剩余0Kb,整个服务器都瘫痪了,利用WizTree软件分析文件定位是SQL Server的Reporting Service每分钟产生一个日志文件,已经产生好几年了,居然有几百万条记录,删除都用了好几个小时才搞定的。日志的文件夹在:C:\Program Files\Microsoft SQL Server\MSRS10.MSSQLSERVER\Reportin...
2019-06-06 10:40:27 1049
原创 基于深度学习LSTM算法生成音乐
整套架构图 一、背景知识1.概念 (来自百度百科):notes(音符):用来记录不同长短的音的进行符号。全音符、二分音符、四分音符、八分音符、十六分音符是最常见的音符。是五线谱中最重要的元素chord(和弦):和弦是乐理上的一个概念,指的是一定音程关系的一组声音。将三个和三个以上的音,按三度叠置的关系,在纵向上加以结合,就成为和弦如果无法使用TensorFl...
2019-04-15 14:10:18 15377 35
原创 Linux上安装TensorFlow和简单使用
一、环境python3.5Linux Red Hat 4.8.5参考官网二、安装1.输入命令yum install python3-dev python3-pip python-virtualenv2.创建虚拟环境virtualenv --system-site-packages -p python3 tensorflow如果要删除虚拟环境的话,直接删除文件...
2019-04-12 18:37:12 2013
原创 Hive使用python编写的自定义函数UDF进行ETL
Hadoop使用Streaming技术来替代Java编程,允许用户使用其他语言实现业务逻辑处理Streaming采用UNIX标准输入输出机制(stdin/stdout)作为应用程序和Hadoop计算框架之间的数据接口标准只要符合标准I/O接口,开发人员便可以选择任意语言编写Map/Reduce模块 下面来做个测试:表里一共有两列数据,当第二列的sex...
2019-04-11 10:44:20 2999
原创 利用Spark构建分布式电影协同过滤推荐系统
一、数据采集使用MovieLen的开放数据集作为数据源,包含了6000个用户对4000个电影的评分数据,大概有100万条评分数据。数据集也可以从这个网址下载。数据集一共有3个文件:movie.date(电影ID::电影名称::标签)1::Toy Story (1995)::Animation|Children's|Comedy2::Jumanji (1995)::Adventure...
2019-04-09 10:16:35 1547
原创 实时大数据平台搭建Flume+Kafka+HDFS+SparkStreaming
整体架构图一、python模拟生成日志import randomimport timeiplist=[101,198,65,177,98,21,34,61,19,11,112,114]urllist=['baidu.com','google.com','sougou.com','360.com','yahoo.com','yisou.com']mobile=['xiaomi'...
2019-04-06 13:34:10 1921 11
原创 数据分析之利用ARMA算法对销售进行预测
一、目标 销售数据是随着时间变化的序列,通过对未来的销售进行预测,方便对人员、物料等各种资源投入的把控,控制好库存,减少浪费,也可以制定未来的营运策略,提高管理效率。 这里使用ARMA(AutoRegressive Moving Average)算法,不仅与前P期的序列值有关,也与前q期的随机扰动有关。二、数据采集和处理1.数据采集采集随着时间变化的销售数据,为了...
2019-03-31 16:15:48 7692 8
原创 数据分析之利用Apriori关联算法看看客户最喜欢买什么
一、背景和目标源于沃尔玛的啤酒和尿布的经典营销案例,把这两个看似并无太大关系的商品联系到一起了。这里就用到了关联算法。我们今天就用关联算法对某餐饮连锁企业的商品进行关联分析,观察用户的消费习惯。环境:python3.5+pycharm算法:Apriori二、数据采集和处理原始数据是长这样的,不过这样的数据并不利于进行关联分析:不过阿里云分析型数据库ADB提供了强大的gr...
2019-03-30 20:12:47 803
原创 跨数据库数据传输:利用ODBC从MySQL传输数据到SQL server
要做数据库迁移和增量备份,把MySQL数据每天移动到SQL server中1.设置ODBC工具首先电脑要先安装好 MySQL的ODBC connector,百度一下就可以了。安装完成之后,在控制面板的ODBC数据源管理里面就可以看到了。填好相关的连接信息。记住这个datasource name,等会儿要用2.在SQL server中设置link3.测试SELEC...
2019-03-23 11:34:57 812
原创 SQL Server去除字段中的双引号和多层引号嵌套处理
一、去除双引号通过MySQL导出的数据,居然有双引号,没办法插入到SQL server大概是这样的:有两种方法解决:1.从源头避免导出选项的时候,文本限定符选择 无 就可以了2.通过replace函数进行清洗:用法如下SELECT top 10 replace([Column 0],'"','') FROM xxx结果:二、多层引号嵌套问题...
2019-03-22 20:31:39 8883
原创 数据分析之利用深度学习和机器学习对餐饮客户进行分类
一、目标 在上一篇博客中,利用RFM模型,使用Kmeans算法,把客户分成了三类,并打好标签,生成了带标签的训练数据。接下来利用这些打好标签的分类数据,使用深度学习和机器学习方法对未打标签的客户进行分类。环境:python3.5机器学习:随机森林深度学习:基于TensorFlow的TFlearn,这个用起来跟sklearn比较相似二、数据采集和分析代码...
2019-03-17 19:25:36 2120
原创 数据分析之利用RFM模型对餐饮客户进行分析
一、背景和目标随着大数据时代的到来,很多公司都建立了数据仓库,对分散在各处的数据进行收集,这只是解决了数据应用中的数据孤岛问题,但是不知道如何对数据进行使用。博主打算利用经典的RFM模型来挖掘数据,对某连锁餐饮行业客户进行分类,分成高价值客户、一般价值客户和普通价值客户,方便针对不同客户制定不同的营销策略利用的工具:1.Python3.52.SQL Server20143.Ta...
2019-03-17 16:10:10 4088
原创 BI自动化之Python自动查询数据库生成Excel并每天定时邮件发送
一、目的1.每天自动查询SQL数据2.生成Excel并作为附件邮件发送3.每天定时自动执行二、开发环境1.Python3.52.SQL server2014三、代码一两个小时弄的,代码可能有点乱,凑合着看吧import pymssqlimport pandas as pdimport time,datetimeimport smtplibimport...
2019-02-24 17:44:28 6588 1
原创 Python使PooledDB连接池连接SQL Server2014
使用连接池有诸多好处:1.可以减少关闭连接的次数,提示连接的速度2.进程内线程共享连接参数定义:1. mincached,最少的空闲连接数,如果空闲连接数小于这个数,pool会创建一个新的连接2. maxcached,最大的空闲连接数,如果空闲连接数大于这个数,pool会关闭空闲连接3. maxconnections,最大的连接数,4. blocking,当连接数达到最大的...
2019-02-23 19:26:57 3106
原创 Lambda架构:Python+Flume+Kafka+Hbase+SparkStreaming架构搭建
一、模拟网站实时产生数据1.利用python模拟产生日志这里的日志选用慕课网日志,原始的日志文件是这样的:需要进行处理,这里选用python脚本处理和模拟生成日志,代码如下:import timedef timeformate(s): s=s.split('/') years=s[2].split(':')[0] days=s[0] mon...
2019-01-06 15:31:36 1041 2
原创 Kafka启动后很快自动关闭进程
今天kafka启动之后,刚开始输入jps还有进程,大概几秒钟不一会儿就关闭了,我这边是-daemon守护进程的方式启动的,到kafka下面的logs文件夹查看server.log日志发现了报错[2019-01-05 11:02:00,473] INFO Unable to read additional data from server sessionid 0x0, likely serve...
2019-01-05 19:16:36 11017
原创 Flume远程实时采集Windows产生的log4j产生的数据
一、配置log4j.properties在IDEA的resource下面新建log4j.properties配置如下:主要定义了控制台和flume里面的日志格式,flumeAppender配置参考Flume官网log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout=org.apache.log4j.ConsoleAppen...
2018-12-29 11:50:10 2087
SSRS SQL Server 2012 Reporting Services高级教程 第2版 中文版带书签目录 完整版
2018-11-14
QlikView 教程 QV教程 QlikView官网指导含源文件
2018-07-16
SQL Server 2012 integration services SSIS高级教程 第2版 PDF电子书下载 带书签目录 完整版
2018-07-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人