大数据工程
文章平均质量分 64
数据工程,作为处理、存储、管理和分析这些海量数据的核心技术,正在逐渐成为各行各业的基石。
1.本博客专栏内容特色如实战分享、数据工程知识普及等
2.本博客专栏价值如技能提升、拓宽视野、建立人脉、职业发展。
让我们一起在数据工程的道路上携手前行,用技术创造更美好的未来!
xsimah
再见少年拉满弓,不惧岁月不惧风。
1.科技先进工作者、省级评审专家库、参与4篇专利、杭州E类人才;
2.参与管理6+人数据分析与挖掘(AI)团队;
3.多次带领团队荣获数据应用模型创新大赛单位一等奖、作品一等奖、个人一等奖;
展开
-
【Maxcompute】数据封装json、根据经纬度计算距离、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如模型结果等封装json格式、根据经纬度计算距离udf、根据证件号提取年龄段信息、判断是否在外包多边形内udf、udtf、函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-04 15:44:40 · 696 阅读 · 0 评论 -
【Maxcompute】解析身份证、计算年龄、查看python版本、字段聚合、手机号校验udf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如通过Python实现解析身份证、计算年龄、查看python版本、字段聚合、手机号校验等UDF函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-04 14:54:42 · 260 阅读 · 0 评论 -
【Maxcompute】bd09、gcj02、wgs84经纬度坐标系转换udf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如经纬度坐标系转换UDF函数注册与使用。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 23:53:21 · 226 阅读 · 0 评论 -
【Maxcompute】实现根据gps数据计算停留点udaf函数
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如根据gps轨迹数据计算停留点信息。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 15:02:01 · 586 阅读 · 1 评论 -
【Maxcompute】geohash转经纬度,经纬度转geohash,计算geohash九宫格
1.梳理、总结经纬度处理在Maxcompute平台上的实战应用,如geohash转经纬度,经纬度转geohash,计算geohash九宫格等。2.欢迎批评指正,跪谢一键三连!原创 2024-06-03 12:07:49 · 1040 阅读 · 0 评论 -
【kettle012】kettle访问FTP服务器文件并处理数据至PostgreSQL(已更新)
1.一直以来想写下基于kettle的系列文章,作为较火的数据ETL工具,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下FTP服务器相关知识体系。3.欢迎批评指正,跪谢一键三连!原创 2024-05-08 17:27:24 · 1459 阅读 · 3 评论 -
【FTP】配置FTP服务器并访问测试(已更新)
1.之前访问搭建的FTP服务器,有些现场环境未搭建,在数据处理过程中遇到一些阻力,多有不便之处。2.熟悉、梳理、总结下FTP服务器相关知识体系3.欢迎批评指正,跪谢一键三连!原创 2024-05-08 17:33:32 · 774 阅读 · 8 评论 -
Hadoop实战-MR倒排索引(三)
场景描述通过切入具体示例代码,解决问题,从而积累 Hadoop 实战经验。倒排索引,源于实际应用中需要根据属性的值来查找记录,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。实验数据输入tom,LittleApplejack,YesterdayOnceMoreRose,MyHeartWillGoOnjack,LittleAppleJohn,MyHea...原创 2018-04-11 22:58:11 · 454 阅读 · 0 评论 -
Call to xx/xx:9000 failed on connection exception( hadoop )
场景描述基于eclipse + hadoop开发过程中,eclipse不能访问远程hadoop服务器文件系统,本地 CMD 窗口 Telnet 失败。失败提示 1 : 本地Windows CMD窗口提示telnet remote_hadoop_ip 9000 # 测试端口连通性# 正在连接x.x.x.x...无法打开到主机的连接。 在端口 9000: 连接失败失败提...原创 2018-04-09 22:45:18 · 1759 阅读 · 0 评论 -
eclipse+hadoop2.6.x环境搭建总结
目的完成eclipse + hadoop2.6.x 开发环境搭建 ;常见错误总结 ;大数据等综合技术积累 .环境搭建推荐参考文章 (已比较全面,不在赘述) 搭建Hadoop2.6.0+Eclipse开发调试环境问题总结 (重点)问题 1 :密码登录 hadoop设置 ssh 免密码登录(否则每次启动【start-all.sh】都需要输入多次密码...原创 2018-03-21 23:54:07 · 305 阅读 · 0 评论 -
impala使用round函数保留小数失效
impala使用round函数保留小数失真原创 2024-04-05 21:00:43 · 301 阅读 · 0 评论 -
hadoop文件上传下载(java实现工具类HDFSUtil)
HDFSUtilHDFS 基础开发,待补充、重构、优化实验环境hadoop 伪分布式环境将eclipse根目录下local.txt文件上传至HDFS将HDFS系统中local.txt文件下载至eclipse根目录下代码package Utils;import java.io.BufferedInputStream;import java.io.File...原创 2018-04-16 00:01:43 · 3825 阅读 · 1 评论 -
Hadoop实战(二),org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray
场景描述探索Hadoop开发经验,从而进一步理解Haddoop源码设计及核心思想实验环境 伪分布式hadoop 2.6.4实验内容 打印HDFS目录信息在HDFS中新建文件写入中英文数据代码实现具体包、配置不在详述 .package hadoop;import java.io.IOException;import java.io.InputStrea...原创 2018-04-10 00:05:43 · 6180 阅读 · 3 评论 -
Hadoop实战(一),单词计数(wordcount)
目的通过特定Hadoop Demo实战,了解、学习、掌握大数据框架日常使用及尝试挑战大数据研发过程中遇到的挑战等。场景描述运用MapReduce 进行简单的单词计数统计。实验 Hadoop 运行于虚拟机(VMWare Workstation)环境中: eclipse(个人熟练) 完成 mapper、reducer的设计与实现;maven进行项目管理构建。...原创 2018-03-20 10:29:49 · 2744 阅读 · 1 评论 -
【kettle015】kettle访问Hive数据仓库并处理数据至execl文件(最近完善中)
1.一直以来想写下基于kettle的系列文章,作为较火的数据ETL工具,也是日常项目开发中常用的一款工具,最近刚好挤时间梳理、总结下这块儿的知识体系。2.熟悉、梳理、总结下Hive数据仓库相关知识体系。3.欢迎批评指正,跪谢一键三连!原创 2024-05-09 19:47:33 · 326 阅读 · 0 评论 -
修改linux系统时间-ODPS-0410031-解决方案
写在前面近期较忙,,,仅参考记录问题解决方案问题描述MaxCompute客户端配置因本地时间不对导致超时 FAILED: ODPS-0410031:Authentication request expired - the expire time interval exceeds the max limitation: 900000, max_interval_date:90...原创 2019-11-07 17:01:34 · 1165 阅读 · 0 评论 -
XShell连接阿里ECS, Socket error Event: 32 Error: 10053-解决方案
写在前面近期较忙,,,仅参考记录问题解决方案问题描述XShell连接阿里ECS, 久久失败失败详情如下:Connecting to 47.52.153.7:22...Connection established.To escape to local shell, press 'Ctrl+Alt+]'.Socket error Event: 32 Error: 1...原创 2019-11-07 17:09:42 · 5214 阅读 · 1 评论 -
postgresql(libra): 简单实战
写在前面耗时1~2小时实验目的熟悉 FusionInsight LibrA 基础开发知识,因为 FusionInsight LibrA 兼容标准ANSI SQL 99/2003和PostgreSQL生态等特性。实验环境VM虚拟机postgresql镜像: profile搭建命令# 1 拉取镜像docker pull postgres# 2 创建映射目录...原创 2019-07-08 23:23:35 · 643 阅读 · 0 评论 -
datax数据同步实战(一): hive2mysql
写在前面基于镜像版集群, 通过datax完成 hive(HDFS) 数据同步至 mysql 实验。集群搭建参考博文:利用Python实现Hive UDF ( Docker集群镜像 )提示镜像内置mysql版本: Server version: 5.7.23 MySQL Community Server (GPL)目的实战datax神器P1: 实验步骤...原创 2019-04-12 00:03:31 · 3484 阅读 · 0 评论 -
master: ssh: connect to host master port 22: Connection refused
场景描述本地 SecureCRT 连接虚拟机中伪分布式式Hadoop 环境,进行中,突然断电、断网,虚拟机 IP 地址更改(与本机不在同一网段)。修改无线连接,恢复至同一网段SecureCRT 连接 虚拟机服务器 失败 本机 ping 虚拟机IP 不通(未知主机)虚拟机 ping 本机IP 不通(未知主机)关闭虚拟机,重启电脑重启 Hadoop服务器异常信息...原创 2018-04-11 21:24:14 · 7943 阅读 · 0 评论 -
KettleDatabaseException: Error occurred while trying to connect to the datab
Kettle(ETL)工具使用熟悉大数据日常开发工具. Kettle 一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。ETL : EXTRACT(抽取)、TRANSFORM(转换)、LOAD(加载)的简称,实现数据从多个异构数据源加载到数据库或其他目标地址,是数据仓库建设和维护中的重要一环。使用版本 Version 7.1...原创 2018-04-15 12:56:47 · 5168 阅读 · 0 评论