自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 资源 (4)

原创 SQL Server不用创建函数,实现Split函数指定分隔符分割以及判断是否为整数

例如有一个字段是姓名/电话,分隔符是"/",姓名长度不一,网上很多教程都是创建函数来实现,其实不用创建函数也可以实现,这里只需要用到charindex这个函数就够了。例子,:用法select left([info],charindex('/',[info])-1) as names ,right([info],len([info])-charindex('/',[info])) as phonefrom #test效果:...

2020-05-22 15:09:19 73

原创 Tableau计算同比和环比任意天数据

网上看了很多帖子,要实现同比和环比都是用lookup函数,但是如果我要同时看很多维度的同比,数据并没有顺序,操作起来就比较麻烦了。现在用一个比较简单的fixed函数来实现这个功能。看看fixed函数的用法:例如,我要看某城市昨天相比上周同一天的销售增长。首先,计算昨天的销售额,创建计算函数{FIXED [StoreID] : SUM(if [SalesDate]=TODAY()-1 then [netsales] end)}然后计算上周同一天的销售额最后计...

2020-05-12 18:18:51 2276

原创 Tableau实现增量刷新

为了节省tableau的刷新时间,有时候我们只需要增量刷新就可以了,设置如下图:选择菜单栏的 数据-提取刷新-所有行-增量刷新,然后再选择对应的增量标识符就可以了,比如我选择的是日期(DOB)当然你也可以选择前多少行或者根据筛选器条件进行筛选刷新...

2019-11-22 15:09:30 1644 3

原创 SQL查询的时候同时显示明细和总计

当我们要查询明细和总计的时候,通常使用的方法是方法一:select item ,sum(xx) from xxx group by itemunionselect null ,sum(xx) from xxx方法二:但是SQL server其实有两个简单的函数可以实现上面的功能Rollup ():分组同时求明细Grouping():判断是否是分组的列,1表示聚合列...

2019-08-23 10:28:43 3134

原创 触发器设置错误导致sa账号无法登陆Logon failed for login 'sa' due to trigger execution

前几天手痒,练习触发器,本来想查看谁登陆,用什么机器登陆,结果参数设置错误,没有把正确的账号和机器名称添加白名单,导致失败了,sa被锁。Logon failed for login 'sa' due to trigger execution到我创建的触发器看,疯了,添加了三个不搭噶的主机,用户名,关键LOGINAME这个用户名也没有密码啊。跑到数据库主机,用本地模式登陆,还是不...

2019-08-22 13:49:09 657 2

原创 Python连接AZURE Data Warehouse

talk is cheap,直接上代码import pyodbcServer = "xxxxxx"DB = "txxxx"User = "xxxxx"Password = "xxxxxx"conn = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server};SERVER=' + Server + ';DATABASE=' + ...

2019-08-16 15:03:16 322

原创 从Mysql搬数据到SQL server报错 The (maximum) expected data length is 28, while the returned data length is 0

前不久写了一篇文章跨数据库数据传输:利用ODBC从MySQL传输数据到SQL server介绍了通过ODBC的方式,把数据从MySQL迁移到SQL Server,但是在迁移的过程中,你会发现很多头疼的报错。比如下面这条:Msg 7347, Level 16, State 1, Line 1OLE DB provider 'MSDASQL' for linked server 'MYSQL...

2019-08-09 10:16:22 558

原创 SQL server求移动平均、rolling sum滚动前多少行求和

上一篇讲了用tableau的实现方法Tableau实现累加多少天求和rolling_sum()这一篇写一下用SQL的方法实现.要实现当前月份和之前2个月的数据相加,代码很简单,直接使用over函数和 rows between n preceding and n following就可以了。代码:SELECT [salesdate] ,[Region] ,s...

2019-06-24 18:25:44 1540

原创 Tableau实现累加多少天求和rolling_sum()、移动平均

描述:比如求过去5天的累加和,在Excel里面很简单,公式一拖就可以了那么tableau该如何实现呢?这里用到了tableau的WINDOW_SUM函数首先创建计算字段然后拖过去,直接就实现了,是不是很简单...

2019-06-14 17:32:37 5918

原创 Tableau计算某个度量占总度量百分比和相对某度量的百分比

描述:第一列是销售额,第二列是销售额占比效果:方法一:使用total函数:创建一个计算字段:sum([sale])/TOTAL(sum([sale])),然后把这个字段拖过去就可以了。方法二:复制一下字段出来拖过去,然后右键-快速表计算-总额百分比方法三:分析-百分比-列有的人可能会遇到另一个问题,假如不是求某个度量占总度量的百分...

2019-06-14 15:04:17 6954

原创 禁用SQL Server的SSRS日志追踪

今天某台服务器C盘空间剩余0Kb,整个服务器都瘫痪了,利用WizTree软件分析文件定位是SQL Server的Reporting Service每分钟产生一个日志文件,已经产生好几年了,居然有几百万条记录,删除都用了好几个小时才搞定的。日志的文件夹在:C:\Program Files\Microsoft SQL Server\MSRS10.MSSQLSERVER\Reportin...

2019-06-06 10:40:27 430

原创 基于深度学习LSTM算法生成音乐

整套架构图 一、背景知识1.概念 (来自百度百科):notes(音符):用来记录不同长短的音的进行符号。全音符、二分音符、四分音符、八分音符、十六分音符是最常见的音符。是五线谱中最重要的元素chord(和弦):和弦是乐理上的一个概念,指的是一定音程关系的一组声音。将三个和三个以上的音,按三度叠置的关系,在纵向上加以结合,就成为和弦如果无法使用TensorFl...

2019-04-15 14:10:18 6897 16

原创 Linux上安装TensorFlow和简单使用

一、环境python3.5Linux Red Hat 4.8.5参考官网二、安装1.输入命令yum install python3-dev python3-pip python-virtualenv2.创建虚拟环境virtualenv --system-site-packages -p python3 tensorflow如果要删除虚拟环境的话,直接删除文件...

2019-04-12 18:37:12 1142

原创 Hive使用python编写的自定义函数UDF进行ETL

Hadoop使用Streaming技术来替代Java编程,允许用户使用其他语言实现业务逻辑处理Streaming采用UNIX标准输入输出机制(stdin/stdout)作为应用程序和Hadoop计算框架之间的数据接口标准只要符合标准I/O接口,开发人员便可以选择任意语言编写Map/Reduce模块 下面来做个测试:表里一共有两列数据,当第二列的sex...

2019-04-11 10:44:20 1307

原创 利用Spark构建分布式电影协同过滤推荐系统

一、数据采集使用MovieLen的开放数据集作为数据源,包含了6000个用户对4000个电影的评分数据,大概有100万条评分数据。数据集也可以从这个网址下载。数据集一共有3个文件:movie.date(电影ID::电影名称::标签)1::Toy Story (1995)::Animation|Children's|Comedy2::Jumanji (1995)::Adventure...

2019-04-09 10:16:35 308

原创 实时大数据平台搭建Flume+Kafka+HDFS+SparkStreaming

整体架构图一、python模拟生成日志import randomimport timeiplist=[101,198,65,177,98,21,34,61,19,11,112,114]urllist=['baidu.com','google.com','sougou.com','360.com','yahoo.com','yisou.com']mobile=['xiaomi'...

2019-04-06 13:34:10 1036 6

原创 数据分析之利用ARMA算法对销售进行预测

一、目标 销售数据是随着时间变化的序列,通过对未来的销售进行预测,方便对人员、物料等各种资源投入的把控,控制好库存,减少浪费,也可以制定未来的营运策略,提高管理效率。 这里使用ARMA(AutoRegressive Moving Average)算法,不仅与前P期的序列值有关,也与前q期的随机扰动有关。二、数据采集和处理1.数据采集采集随着时间变化的销售数据,为了...

2019-03-31 16:15:48 2673 5

原创 数据分析之利用Apriori关联算法看看客户最喜欢买什么

一、背景和目标源于沃尔玛的啤酒和尿布的经典营销案例,把这两个看似并无太大关系的商品联系到一起了。这里就用到了关联算法。我们今天就用关联算法对某餐饮连锁企业的商品进行关联分析,观察用户的消费习惯。环境:python3.5+pycharm算法:Apriori二、数据采集和处理原始数据是长这样的,不过这样的数据并不利于进行关联分析:不过阿里云分析型数据库ADB提供了强大的gr...

2019-03-30 20:12:47 270

原创 跨数据库数据传输:利用ODBC从MySQL传输数据到SQL server

要做数据库迁移和增量备份,把MySQL数据每天移动到SQL server中1.设置ODBC工具首先电脑要先安装好 MySQL的ODBC connector,百度一下就可以了。安装完成之后,在控制面板的ODBC数据源管理里面就可以看到了。填好相关的连接信息。记住这个datasource name,等会儿要用2.在SQL server中设置link3.测试SELEC...

2019-03-23 11:34:57 335

原创 SQL Server去除字段中的双引号和多层引号嵌套处理

一、去除双引号通过MySQL导出的数据,居然有双引号,没办法插入到SQL server大概是这样的:有两种方法解决:1.从源头避免导出选项的时候,文本限定符选择 无 就可以了2.通过replace函数进行清洗:用法如下SELECT top 10 replace([Column 0],'"','') FROM xxx结果:二、多层引号嵌套问题...

2019-03-22 20:31:39 2636

原创 数据分析之利用深度学习和机器学习对餐饮客户进行分类

一、目标 在上一篇博客中,利用RFM模型,使用Kmeans算法,把客户分成了三类,并打好标签,生成了带标签的训练数据。接下来利用这些打好标签的分类数据,使用深度学习和机器学习方法对未打标签的客户进行分类。环境:python3.5机器学习:随机森林深度学习:基于TensorFlow的TFlearn,这个用起来跟sklearn比较相似二、数据采集和分析代码...

2019-03-17 19:25:36 783

原创 数据分析之利用RFM模型对餐饮客户进行分析

一、背景和目标随着大数据时代的到来,很多公司都建立了数据仓库,对分散在各处的数据进行收集,这只是解决了数据应用中的数据孤岛问题,但是不知道如何对数据进行使用。博主打算利用经典的RFM模型来挖掘数据,对某连锁餐饮行业客户进行分类,分成高价值客户、一般价值客户和普通价值客户,方便针对不同客户制定不同的营销策略利用的工具:1.Python3.52.SQL Server20143.Ta...

2019-03-17 16:10:10 1339

原创 BI自动化之Python自动查询数据库生成Excel并每天定时邮件发送

一、目的1.每天自动查询SQL数据2.生成Excel并作为附件邮件发送3.每天定时自动执行二、开发环境1.Python3.52.SQL server2014三、代码一两个小时弄的,代码可能有点乱,凑合着看吧import pymssqlimport pandas as pdimport time,datetimeimport smtplibimport...

2019-02-24 17:44:28 3037 1

原创 Python使PooledDB连接池连接SQL Server2014

使用连接池有诸多好处:1.可以减少关闭连接的次数,提示连接的速度2.进程内线程共享连接参数定义:1. mincached,最少的空闲连接数,如果空闲连接数小于这个数,pool会创建一个新的连接2. maxcached,最大的空闲连接数,如果空闲连接数大于这个数,pool会关闭空闲连接3. maxconnections,最大的连接数,4. blocking,当连接数达到最大的...

2019-02-23 19:26:57 1938

原创 Lambda架构:Python+Flume+Kafka+Hbase+SparkStreaming架构搭建

一、模拟网站实时产生数据1.利用python模拟产生日志这里的日志选用慕课网日志,原始的日志文件是这样的:需要进行处理,这里选用python脚本处理和模拟生成日志,代码如下:import timedef timeformate(s): s=s.split('/') years=s[2].split(':')[0] days=s[0] mon...

2019-01-06 15:31:36 448 2

原创 Kafka启动后很快自动关闭进程

今天kafka启动之后,刚开始输入jps还有进程,大概几秒钟不一会儿就关闭了,我这边是-daemon守护进程的方式启动的,到kafka下面的logs文件夹查看server.log日志发现了报错[2019-01-05 11:02:00,473] INFO Unable to read additional data from server sessionid 0x0, likely serve...

2019-01-05 19:16:36 7163

原创 Flume远程实时采集Windows产生的log4j产生的数据

一、配置log4j.properties在IDEA的resource下面新建log4j.properties配置如下:主要定义了控制台和flume里面的日志格式,flumeAppender配置参考Flume官网log4j.rootLogger=INFO,stdout,flumelog4j.appender.stdout=org.apache.log4j.ConsoleAppen...

2018-12-29 11:50:10 1181

原创 SparkStreaming使用SQL

直接上代码,例子来源于官网的wordcount例子package Sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.storage.StorageLe...

2018-12-19 17:22:10 1333

原创 SparkSteaming实时接收网络端口数据和hdfs做Wordcount

一、POM配置因为使用windows的IDEA连接虚拟机中的Spark,所有要配置一下依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.or...

2018-12-17 18:16:49 181

原创 Flume跨服务器实时采集数据

整体架构如下图,有两台服务器,在服务器之间传输一般用avro 或者Thrift比较多,这里选择avro source和sink:一、Flume配置1.在A服务器新建aserver.conf#服务器A(192.168.116.10)a1.sources = r1a1.sinks = k1a1.channels = c1# 配置监控文件a1.sources.r1.type ...

2018-12-11 11:53:41 1856

原创 Flume采集数据:从指定网络端口和实时监控新增数据

一、从指定端口采集数据1.配置flume文件创建一个文件叫ip.conf,自己随便取的名字。a1.sources=r1a1.sinks=k1a1.channels=c1#描述和配置source,这里的a表示agent的名字#第一步:配置sourcea1.sources.r1.type=netcata1.sources.r1.bind=192.168.116.10a1.s...

2018-12-06 18:42:23 1298

原创 Kafka+flume实时采集数据

一、模拟产生日志在IDEA的resource文件夹下面新建log4j.properties定义日志格式,其中flume和log4j的整合配置可以查看Log4j Appender#设置日志格式log4j.rootCategory=ERROR,console,flumelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4...

2018-12-03 17:06:40 1000

原创 spark2.4 on yarn安装

一、安装scala2.11注意官网的这句话:Note: Starting version 2.0, Spark is built with Scala 2.11 by default. Scala 2.10 users should download the Spark source package and build with Scala 2.10 support.也就是说spark2....

2018-11-29 14:53:55 1637 1

原创 SQL server2014创建用户、授权指定访问某张表

一、创建用户1.用可视化方法创建打开对象管理器-security-logins,右键new login选择SQL 验证、输入用户名和密码,密码过期这块根据需求更改就行。服务器角色这块默认public就行设置用户映射,这里把登录名和用户做了映射,名称相同,概念不同。授权选择对应的数据库,右键-找到属性-权限,分配对应权限 2.用命令行方式创...

2018-11-23 15:07:22 3716 3

原创 kettel7连接SQL server2014

一、kettel配置1.导包a.导入Hadoop和hive的jar包把hive相关的jar包放到kettel安装目录的E:\kettle\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp25\lib把Hadoop相关的jar包放到E:\kettle\data-integration\...

2018-11-19 16:04:53 243

原创 hive使用技巧:把很多小文件导入一张表中、显示在文件中位置和行数等。

1.使用MSCK命令导入输入到hive表我们有时候会遇到很多小文件需要导入到一张hive表里面,但是一个个导入非常麻烦。假设创建一个外部表,这个表在hdfs的order文件夹里,但是这个文件夹现在是空的。所以用select * 是没有数据的。CREATE EXTERNAL TABLE order( order STRING , time STRING)ROW FOR...

2018-11-18 12:36:59 947

转载 如何将HDFS文件系统挂载到Linux本地文件系统

本文转自https://cloud.tencent.com/developer/article/1078538,如果侵权请联系我删除。1.文档编写目的Hadoop支持通过NFSv3挂载HDFS文件系统到本地目录,允许用户像访问本地文件系统一样访问HDFS,对于普通用户来说大大的简化了HDFS的使用。该功能通过引入NFS Gateway服务实现,将NFS协议转换为HDFS访问协议。本篇文章主...

2018-11-18 10:55:35 2619

原创 Hive读取HDFS上面的数据和使用Squirrel客户端连接Hive

一、把数据从HDFS导入到hive的表里前面已经测试了利用Sqoop把数据从SQL Server导入到hdfs中,但是分成了好多小文件,这里有两种方法读取数据。第一种方法:创建内部表导数据1.建表在hive里面建立好对应的表格 create table sites(xxx int,xxx string,xxx  timestamp)    row format delimit...

2018-11-14 18:04:15 2418

原创 Sqoop1.99 从SQL Server导数据到HDFS

一、创建link1.创建mssql 的link 启动sqoop2-shell设置端口 set server --host master --port 12000 --webapp sqoop创建连接 create link -c generic-jdbc-connectorName: mssqlJDBC Driver Class: com.microsoft.sqlserv...

2018-11-12 17:03:04 336

原创 Tableau修改后台任务时间、进程数、添加IP

一、修改后台任务进程1. 打开cmd 命令窗口,cd到tableau server的安装目录,输入tabadmin stop等待服务器停止服务。打开 configure tableau server点击edit修改background task的数即可修改后台任务进程数。    二、修改任务时间1. 在命令窗口cd到 server安装文件夹,...

2018-11-12 12:48:44 678

以慕课网日志分析为例 进入大数据 Spark SQL 配套日志文件

以慕课网日志分析为例,进入大数据Spark SQL大世界配套的日志文件,看到很多人再找,我就上传了,这个是那个10000条的那个。如果需要更大的那个,评论区留个邮箱或者到我博客评论。

2018-11-27

SSRS SQL Server 2012 Reporting Services高级教程 第2版 中文版带书签目录 完整版

SQL Server 2012 Reporting Services高级教程 第2版 PDF电子书下载 带书签目录 完整版,是中文版的哈,不是英文版的。有开发SSRS的同学可以参考看看。

2018-11-14

QlikView 教程 QV教程 QlikView官网指导含源文件

QlikView 教程 QV教程 QlikView官网指导,包含官网原始qvw、CSV、xlsx、access文件

2018-07-16

SQL Server 2012 integration services SSIS高级教程 第2版 PDF电子书下载 带书签目录 完整版

SQL Server 2012 integration services(SSIS教程)高级教程 第2版 PDF电子书下载 带书签目录 完整版

2018-07-03

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除