CayongL-CSDN博客

原创本地Spark环境读取云上的HDFS文件

本地Spark环境读取云上的HDFS文件踩坑指南

2022-06-21 18:53:58 1092

原创 centos搭建简易文件服务器

参考：CentOS 7下搭建http简易文件服务器_高级拳师的博客-CSDN博客_centos7搭建http

2022-05-07 16:04:27 719

什么是流分析Azure 流分析是一个实时分析和复杂事件处理引擎，旨在同时分析和处理来自多个源的大量快速流式处理数据。可以在从许多输入源（包括设备、传感器、点击流、社交媒体源和应用程序）提取的信息中识别模式和关系。这些模式可用于触发操作和启动工作流，例如创建警报、向报告工具馈送信息或存储转换后的数据供以后使用。此外，流分析可在 Azure IoT Edge 运行时上使用，从而能够处理 IoT 设备上的数据。流分析的场景：分析来自 IoT 设备的实时遥测数据流 Web 日志/点击流分析

2022-04-27 15:18:32 323 1

原创 sparkstreaming 消费kafka数据

Spark环境准备： Java Jdk1.8 spark依赖java，首先电脑中必须安装java。地址：https://www.oracle.com/java/technologies/javase-jdk8-downloads.html正在上传…重新上传取消根据系统下载对应的jdk，下载后双击exe文件进行安装，可选择安装位置。环境变量配置依次点击我的电脑 ->属性->高级系统设置->环境变量，在系统变量选项卡中，新建一个系统变量，如下，变量名为JAV

2022-04-27 15:10:48 1614

原创 edge流分析

什么是流分析Azure 流分析是一个实时分析和复杂事件处理引擎，旨在同时分析和处理来自多个源的大量快速流式处理数据。可以在从许多输入源（包括设备、传感器、点击流、社交媒体源和应用程序）提取的信息中识别模式和关系。这些模式可用于触发操作和启动工作流，例如创建警报、向报告工具馈送信息或存储转换后的数据供以后使用。此外，流分析可在 Azure IoT Edge 运行时上使用，从而能够处理 IoT 设备上的数据。流分析的场景：分析来自 IoT 设备的实时遥测数据流 Web 日志/点击流分析

2022-04-27 15:10:12 220

原创 tableau server问题

Server 突然访问不了，登录平台发现平台不能正常登录查找原因：外部： Server管理是否能登录 Server 发布界面是否能看到都不可以内部： Server 出问题了解决：因为不在公司办公，无法登录到jump server 所以联系ir将我的ip添加到jump server的白名单中登录jump server 打开tableau server的服务器，关闭服务发现报错查看日志，发现报了500的错误，又看到了一个空间不足的

2022-04-25 20:56:38 729

原创搭建TableauServer服务器

1. 背景BI展示需要在Tabelau上面展示2. 步骤2.1 搭建服务器（AWS云）[服务器学习]一：AWS亚马逊云EC2创建CentOS7实例_Louis的博客-CSDN博客_aws centostableau server在centos7.6上安装记录_u012847056的博客-CSDN博客Linux环境下安装Tableau Server_王国平的博客-CSDN博客2.2 连接[服务器学习]二：使用Xshell 5通过SSH远程连接EC2实例_Louis的博客-CSD

2021-10-15 10:09:50 711

原创 TableauServer中文乱码解决

1. 背景在搭建Tableau Server的时候发现从Desktop发布之后显示乱码2. 解决办法参考博文：TableauServer乱码另外附上我找的文档，这两个不一样

2021-10-15 10:05:18 1754

原创解决raise JSONDecodeError(“Expecting value“, s, err.value) from None json.decode

1. 背景在做一个项目的时候，解析json数据，发现有一台机器的数据有问题，平时其他机器的数据都能正常解析只有这台机器有问题，找了一些解决办法都没用（修改代码），然后感觉肯定是有一条数据格式不对，所以才抛出了这样的异常，于是就要找这具体的这个文件2. 解决办法像这种的小文件一共有30多W个，本来想使用二分法，但是同时复制大批量文件到文件夹中会卡死，无奈一个文件中放1W条数据，最后在大约9W-10W条的时候找出来了...

2021-09-16 14:12:52 9509 2

原创 Tableau最新版安装下载

1. 背景因为之前使用的是2018版的有点老，所以找了一个最新的2. 解决详看：Tableau Desktop 2021中文免费版下载（包含其它历史版本）

2021-09-10 10:14:23 1162

原创 PySpark部分函数使用方法（AWS）

1. 背景最近使用PySpark做了一些数据处理，目前涉及到的函数有以下部分：1. toDF()2. groupBy（）3.agg（）4.alias（）5. F.max（）6.printSchema（）7. show（）8. withColumn（）9.explode()10.pivot()11. select()12. where()13. join()2. 具体使用方法2.1 加载环境import sysimport...

2021-09-07 15:07:41 1429

原创使用MySQL一段时间的体会

1. 背景做项目的时候经常需要做group的动作，发现每次group by之后的数据是自动按照group by的字段对应的列所在的时间进行排序，于是有了一些猜想：1. 按照插入数据库的是顺序排序？2. 按照时间字段进行排序？2. 相关资料针对上述的猜想，于是查了一些资料。发现了：1. mysql在不给定order by条件的时候，得到的数据结果的顺序是跟查询列有关的。2. 在不同的查询列的时候，可能会使用到不同的索引条件。3. Mysql在使用不同索引的时候，得到的数据顺序是不一样的

2021-09-03 15:37:47 142

原创 AWS云lamda实时判断IoTCore上传的数据并插入RDS中

1. 背景1.1 简介需要对实时上传的数据进行监测，如果发现有异常数据需要将该设备的机器信息写入到RDS中1.2 流程IoTCore编写路由到Lambda，Lambda对该条数据进行判断，如果有异常数据则将该条数据的机器信息写入到RDS中（频率：70s上传一次）1.3 遇到的问题如果某个机器一直的数据一直有问题，那这台机器的信息就一直被写入到数据库中，2天写入数据库70w条，这是一个很大的问题，于是进行了优化2. 思考怎么解决上述问题？可以对这条告警数据的its（时间戳）

2021-08-25 17:23:23 277

原创 sql 十进制转二进制进制之间的转换

参考博客进制之间的转换

2021-07-28 15:16:58 2647

原创参加2021亚马逊云科技中国峰会

1. 主会1.1 洛阳钼业 --矿产业1.2 保时捷 --汽车1.3 --制造业1.4 德勤 --战略合作伙伴2. 分论坛2.1 制造业分论坛2.1.1 智能湖仓的分享本次分论坛是由AWS的架构师讲解的，是根据s3的数据进行数据湖的创建，其他应用基于数据湖来做一个数据的处理。2.1.1.1 助力制造业的步骤：工程设计-->智慧工厂-->供应链-->业务运营1. 工程设计可以包括如下：CAD/CAE/PLM/PDM上云、数字孪生等2. 智慧..

2021-07-22 17:21:14 342

原创 Neo4j 图数据库 + NLP (自然语言处理) Demo

1. 背景最近需要使用图数据库做项目2. Neo4j图数据库刚开始使用的是Neo4j的Desktop版本，后来再使用APOC插件的时候一直执行失败所以就换成社区版本的server了官网下载：neo4j选择社区版本win平台下载解压：可以参考这篇博客3. APOCjar包当安装好Neo4j之后将jar放到安装位置的plugins文件夹下具体可以参考这篇博客4. 百度云NLP应用具体可以参考这篇博客5. 访问百度NLP首先需要向授权服务地址https..

2021-07-13 17:02:06 1293

原创 AWS S3--Glue--Redshift--Tableau

1. 背景数据在s3中，需要对数据进行BI展示2. 流程图3. 数据

2021-07-02 14:22:17 588

原创一键部署hadoop集群

1. 背景因为要经常使用hadoop集群，所以就写了shell脚本2. 具体脚本如下2.1 需要host映射#!/bin/bash# author : Cayon# time : 2021-04-15#1. 使用统一的用户#定义变量ip1=$1hostname1=$2ip2=$3hostname2=$4ip3=$5hostname3=$6#2. 统一目录setUnifiedDirectory(){ mkdir -p /export/servers ...

2021-06-30 16:07:02 743

原创阿里云（kafka-＞flink-＞rds mysql-＞datav）

1. 背景使用阿里云做了一个demo，从数据的生产到数据的展现，一条数据的链路kafka->flink->rds mysql->datav2. 数据的产生首先使用python脚本生成一个实时的数据流存放到阿里云的kafka中# -*- coding: utf-8 -*-"""Created on Sun Jun 27 20:11:50 2021@author: 44373"""import msvcrtimport randomimport confi

2021-06-30 15:59:47 670

原创搭建Hadoop集群

2021-06-26 17:06:35 144

原创 Kettle解析两层json

1. 背景数据以json格式传输到AWS 的S3里面，将数据从S3下到本地，然后对其进行解析，入库。将表结构做成大宽表，对于json里面有的字段就有值，没有的则补为null。大宽表一共70多个字段。2. 数据格式{ "dId": "204083", "ccn": "24474728", "version": "000001", "D": [{ "N": "Compressor Status Word", "V": -278...

2021-06-08 15:51:42 3655

原创搭建数据中台之安装Hbase

1.背景继上一篇搭建数据中台之Hive2. 准备2.1上传安装包2.2 解压tar -zxvf hbase-1.0.0-cdh5.5.1.tar.gz2.3 移动mv hbase-1.0.0-cdh5.5.1 /usr/local/hbase3. 修改配置文件3.1 修改配置文件vim hbase-site.xml3.2 修改环境变量4. 启动在启动的之前首先要启动zookeeper和hdfsstart-hbase.sh5.验证

2021-06-02 16:22:49 169

原创搭建数据中台之Hive

1.背景继上一篇搭建数据中台之安装Hadoop环境：Hive版本：1.0.02. 准备2.1 上传包2.2 解压tar -zxvf apache-hive-1.0.0-bin.tar.gz2.3 移动mv /usr/local/hive3. 修改配置文件3.1 配置文件cd /usr/local/hive/confvim hive-site.xml3.2 环境变量3.3 解压mysql连接驱动tar -zxvf mysql-conn

2021-06-02 15:32:29 476

原创搭建数据中台之安装Hadoop

1. 背景继上一篇搭建数据中台之clickhouse环境：hadoop版本：2.6.02. 准备2.1 配置机器免密登录ssh-keygen -t rsa 然后四个enter修改主机名vim /etc/hostnamevim /etc/hostsssh-copy-id cos12.2 上传安装包2.3 解压tar -zxvf hadoop-2.6.0.tar.gz2.4 移动到/usr/local/hadoopmv hadoop-..

2021-06-02 13:02:09 384

原创搭建数据中台之clickhouse

1. 背景继上一篇博客数据中台搭建之安装JDK，zookeeper，kafka2. 准备2.1 检查是否支持SSE 4.2•grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported“"2.2 上传3. 安装3.1 安装的时候发现需要引入其他的依赖上传然后安装4. 修改配置文件vim config.x.

2021-06-01 17:35:08 536

原创数据中台搭建之安装JDK，zookeeper，kafka

1. 背景接上篇博客搭建数据中台之安装mysql，在此基础上安装其他环境2. 准备上传包到主节点上3.解压、安装、修改配置文件3.1 解压JDKtar -xvf jdk-8u181-linux-x64.gz3.2 移动到/usr/local/jdk目录下mv ···· /usr/local/jdk3.3 解压zookeepertar -zxvf zookeeper-3.4.5.tar.gz3.4 移动到/usr/local/zkmv ···· /us.

2021-06-01 15:54:05 285

原创搭建数据中台之安装mysql

0. 背景机器环境：Centos7mysql版本：5.51. 准备上传rpm包到主节点上2.删除相关包rpm -e mariadb-libs-5.5.56-2.el7.x86_643. 解压tar -xvf MySQL-5.5.53-1.linux2.6.x86_64.rpm-bundle.tar4. 安装rpm -ivh MySQL-server-5.5.53-1.linux2.6.x86_64.rpmrpm -ivh MySQL-client.

2021-06-01 11:00:49 291

原创《InlfluxDB可视化界面》

1. 背景问题：InfuxDB数据不能可视化环境：Win102. 安装Grafana2.1 下载https://grafana.com/grafana/download?platform=windows2.2 安装默认安装即可3. 配置InfluxDB到目前你就可以运行Grafana了，默认端口号是3000,打开浏览器访问http://localhost:3000 Grafana的默认登录名和密码admin/admin，第一次登录会提示修改密码。然后最...

2021-05-12 15:02:03 787

原创《Win安装时序数据库--influxDB》

1. 背景公司IOT数据需要用到时序数据库服务器：Win版本：v1.72. 准备工作下载：官网下载（可自行选择版本）百度网盘链接：https://pan.baidu.com/s/1MEsfX7YibB1qcFuZxWmyOQ提取码：sjxd3. 安装下载之后，解压v1.*的版本基本上都是这几个，V2.*的就少了，只有一个influx.exe和一个influxd.exe找到influxdb.conf，然后修改里面的配置修改成自己的路径就可以了4..

2021-05-07 15:49:09 402

原创《MySQL数据库迁移》

现遇到的问题是有一台MySQL数据库需要迁移到另一台服务器上机器信息 ip user 10.10.***.***（源） root 10.10.***.***（目标） root MySQL版本：mysql-5.7.17-linux-glibc2.5-x86_64.tar.gz查看MySQL版本：mysql -uroot -p输入密码：1. 准备工作首先在目标机器上安装具体步骤可以参考我的另一篇博客：linux安装mysql以及遇到的坑2.

2021-04-28 14:06:07 186

原创《kettle抽取sqlserver的增量数据》

1. 背景最近公司有一个项目需要对sqlserver的增量数据进行一个数据迁移2. 解决方案:针对时间戳进行增量回滚参考了一个博客因为链接太长我就放在文章末了。（这篇文章主要是针对的mysql数据库，在调试过程中遇到很多坑，我会在后面一一道出）参考了Azure的数据工厂中的增量复制模板（这个是找一个参考列，而这个参考列模板里给的是时间，我的个人理解还可以是其他的比如自增长的id那一列）其实这两个都是找到上次同步表的参考列的那个值，记录到中间表，然后找到新增数据参考列的最大值，将这个值与中

2021-04-26 16:36:52 1627 2

原创《Python连接oracle》

接上一篇win安装mysql、sqlserver、oracle、数据库在此基础上使用python连接oracle并判断是否连接成功#!/usr/bin/env python# -*- coding: UTF-8 -*-'''@Project ：MQTT_Test @File ：oracle_conn.py@IDE ：PyCharm @Author ：Cayon_L@Date ：2021/4/26 10:30 @User ：liuky '''impo

2021-04-26 14:06:19 374

原创《PyCharm自定义新建文件、代码片段、函数注释模板【转】》

https://zhuanlan.zhihu.com/p/102189447

2021-04-26 10:11:16 148

原创《python连接MongoDB》

接上一篇

2021-04-23 15:00:42 297 2

原创《Win安装mysql、sqlserver、oracle、mongodb》

因为公司产品需要，所以在此记录一下 win安装mysqlmysql 版本：5.17.0

2021-04-19 13:05:37 329

原创《linux下Docker安装oracle 11g》

废话不多说，上干货速度超级快https://blog.csdn.net/qq_38380025/article/details/80647620

2021-03-10 17:37:11 121

原创《Pycharm配置node.js》

1 下载node.js下载地址:https://nodejs.org/zh-cn/download/选择合适的版本下载，我的是windows 64位下载完成之后，进行安装node.js默认安装在安装的时候可以勾选自动配置环境变量配置完成之后，验证node是否安装成功Cmd输入node -v，出现版本号，nod本地环境配置成功2 接着打开pycharm，注意pycharm是专业版的才能配置nodejs环境file-setting-plugin-marketpla

2021-03-09 17:27:37 5197

原创《python前后端访问mysql》

记一次pyton前后端访问mysql前端：HTML后端：Django数据库：MySQL环境：PycharmPytharm就算没有安装Django环境也没有问题，他会自动下载（pip）如果有强迫症的非得想知道Django的安装位置以及版本，比如我，以下附上：安装位置第一个办法：自然就是打开cmd，然后用pip来查看，如图pip show 包名即可查看你要找的包的位置。第二个办法：python版本：同上面的第一个办法第二个办法：Python..

2021-03-09 17:00:22 1149

原创《linux安装mysql》

下载mysql在官网：http://dev.mysql.com/downloads/mysql/中，选择以下版本的mysql下载：下载安装包或者使用以下命令#wgethttp://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.17-linux-glibc2.5-x86_64.tar.gz3解压压缩包到目标位置--解压压缩包#tar -xzvf /data/software/mysql-5.7.17-linux-glibc2.5...

2021-03-08 16:39:08 190 2

电池电量监测.zip

Pyspark取上下三帧，如果这7条数据都是1，那这条数据的这列为1，其他的为0