自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据搬运工

记录踩过的坑

  • 博客(41)
  • 收藏
  • 关注

原创 解决方法MySQL ERROR 3948 (42000): Loading local data is disabled; this must be enabled on both the

MySQL执行LOAD DATA语句时报错ERROR 3948 (42000): Loading local data is disabled; this must be enabled on both the client and server sides解决方案查看是否开启加载本地文件 show variables like 'local_infile';开启全局本地文件设置 set global set local_infile=on;加载数据成功 load data local in

2020-12-01 18:42:43 15433 5

原创 QGIS中shp格式点数据导出为csv带点坐标的数据

将cities点数据带上坐标值导出为csv在Layer填入GEOMETRY=AS_XY,导出即可。

2020-09-23 17:15:31 7082 1

转载 有赞数据仓库实践之路

转载自:有赞数据仓库实践之路一、大数据环境下的有赞数仓关于数据仓库,在维基百科中将它定义为用于报表和数据分析的系统,是商务智能 Business Intelligence 的核心部分。在数据仓库诞生之初,它只被设计成面向管理层所需要的决策支持系统,并不对业务方(这里指各应用系统)提供数据支持。然而在大数据环境的背景下,当 Hadoop 生态已然成为大数据现实意义上的载体,以 Hive 为基础的数据仓库已经不能仅仅只提供决策支持的需求了——它需要同时满足某些业务上对数据的统计需求。因此,当下的数据仓库

2020-08-07 11:14:46 611

原创 解决方法:FAILED: ODPS-0130071:[0,0] Semantic analysis exception - physical plan generation failed: java.

**产生原因:**上游数据中的字段类型为decimal(38,18),下游数据类型也为decimal**解决方法:**将两表数据类型统一。上游数据的类型为decimal,下游数据类型也为decimal

2020-08-06 18:07:41 16812

原创 通过odps-sdk读取odps中的表结构,转换为mssqlDDL语句

1. IDEA中新建模块2. 编写ReadDDL类,用于连接ODPS,读取对应的表结构package com.op.ddlutil;import com.aliyun.odps.*;import com.aliyun.odps.account.Account;import com.aliyun.odps.account.AliyunAccount;import com.aliyun.odps.simpleframework.xml.Element;import java.util.Ar

2020-08-06 18:03:57 1957

原创 解决方法:git clone http://**** fatal:unable to access ‘http://****‘ :Could not resolve proxy : http

入职新公司,git clone 遇到的问题解决方法:找到C:\Users\OrderPlus(最后一级为用户名所在目录),找到.gitconfig文件添加最后两条配置信息$ git config --list查看配置是否生效再次执行git clone 可执行克隆...

2020-07-24 11:12:31 9738 2

原创 echarts.min.js:37 Uncaught TypeError: Cannot set property ‘dataIndex‘ of undefined的解决方案

报错信息如图原因:准备的数据中有重复数据解决方案:去除重复数据,刷新页面!

2020-07-15 09:23:17 2039

原创 Intellij IDEA实现Maxcompute UDF自定义函数以周日为一周第一天的周数

创建项目new project选择MaxCompute Studio工程写入项目名新建模块new Model选择"MaxCompute Java"类型模块,右侧我什么都没选哦~写入模块名点击"Finish"自动生成pom文件右键模块下的"java"文件夹,new一个"MaxCompute java"创建java文件编写UDF逻辑代码。这里通过传入日期参数,返回一年中的第几周。类似MaxCompute中的weekofyear()函数, weekofyear()是从周一开始.

2020-07-09 16:58:58 833

原创 SQL - between and 是左右闭区间

select * from a where v between 1 and 5;相当于 v>=1 且 v<=5

2020-06-17 11:51:59 4026

原创 Excel将网址字符串转成超链接

有一列的网页链接方式一:通过HYPERLINK()函数方式二:VBA宏运算在“视图”中点击“宏”输入创建宏的名称,点击创建输入vb代码Sub text2hyperlink() Dim R As Range For Each R In Selection ActiveSheet.Hyperlinks.Add R, R.Text NextEnd Sub选中网址,点击执行即可。...

2020-06-02 19:46:00 5560

原创 IDEA安装MaxCompute Studio的详细步骤

1.安装好IDEA2.点击File >> Settings >> Plugins,在搜索框搜索MaxCompute,找到对应的插件。3.点击File >> New >> Project,创建新工程,选择MaxCompute Studio。4.点击左上角的“+”加号,添加阿里云上的数据工程。记得提前准备MaxCompute客户端的配置文件!5.成功加载阿里云上的数仓,并可显示相关的表记录!6.新建MaxCompute SQL脚本7.编写

2020-05-18 13:11:13 2314

转载 Geodatabase

1.地理数据库(Geodatabase)概述:地理数据库(Geodatabase)是一种面向对象的空间数据模型,它对地理空间特征的表达更接近我们对现实世界的认知。Geodatabase是Esri公司研发的一种数据管理模式,Geodatabase中所有数据都被存储在一个RDBMS中,即包括每个地理数据集的框架和规则,也包括空间数据和属性数据的简单表格。Geodatabase为ArcGIS更好的...

2020-04-23 12:40:45 1718

原创 wordcount经典题:使用Hive完成单词统计

准备数据在hive创建数据库、表、导入数据create database interview; #创建数据库use interview; #使用数据库create table wordcount(line string); #创建单词统计表(这里表中一行的数据是文档中的一行的字符串)load data local inpath '/home/data/wor...

2020-04-21 10:24:21 489

原创 MySQL基础语法

ALTER TABLECOMMITCREATE INDEXCREATE PROCEDURECREATE TABLECREATE USERCREATE VIEWDELETEDROPINSERTINSERT SELECTROLLBACKSAVEPOINTSELETESTART TRANSACTIONUPDATE

2020-04-19 21:13:34 94

原创 解决方案:connect to server at 'localhost' failed error: 'Access denied for user 'root'

报错:[root@hadoop01 percona]# mysqladmin -u root password ‘root’mysqladmin: connect to server at 'localhost' failed error: 'Access denied for user 'root'@'localhost' (using password: NO)'停止mysql的服务...

2020-04-19 19:31:28 7880

原创 Spark集群安装(Standalone)

解压安装包tar -xvf spark-2.0.1-bin-hadoop2.7.tgz在spark的conf目录下,复制 spark-env.sh.template 为 spark-env.shcp spark-env.sh.template spark-env.shvim spark-env.sh在spark的conf目录下,复制 slaves.template 为 s...

2020-04-19 13:37:02 123

原创 Kafka的安装

解压安装tar -xvf kafka_2.11-1.0.0.tgz编辑 kafka_2.11-1.0.0/config/server.propertiesvim server.properties启动kafka(在kafka的bin目录下启动)sh kafka-server-start.sh ../config/server.properties...

2020-04-19 12:58:59 96

原创 HBase的安装

下载解压HBase安装包cd /home/software/tar -xvf hbase-1.3.1-bin.tar.gz编辑 /hbase-1.3.1/conf/hbase-env.sh# 编辑cd hbase-1.3.1/confvim hbase-env.sh# 保存退出,使其生效:wqsource hbase-env.sh添加:export JAVA_H...

2020-04-19 12:45:38 119

原创 Hadoop完全分布式的搭建

因为第一台云主机之前搭过伪分布式,所以需要将伪分布式重命名 cd /home/software/ mv hadoop-2.7.1/ hadoop-alone三台云主机关闭防火墙service iptables stopchkconfig iptables off2. 修改三台云主机的主机名,修改HOSTNAME属性,依次改为hadoop01、hadoop02、hadoo...

2020-04-19 11:39:32 247

原创 Netcat的安装及使用

下载rpm包解压安装 rpm -ivh nc-1.84-22.el6.x86_64.rpmnetcat的常用命令:echo stat | nc 192.168.171.132 2181echo ruok | nc 192.168.171.132 2181echo conf | nc 192.168.171.132 2181

2020-04-19 09:56:57 898

原创 Zookeeper的完全分布式搭建

重新解压Zookeeper的安装包tar -xvf zookeeper-3.4.8.tar.gz进入Zookeeper的安装目录的conf目录下cd zookeeper-3.4.8/conf复制 cp zoo_sample.cfg zoo.cfg;编辑 vim zoo.cfg ,更改dataDir路径,添加三个节点IP在Zookeeper的安装目录下,创建tmp目录 mkdir t...

2020-04-18 22:37:26 107

原创 虚拟机ping不通虚拟机/虚拟机ping不通主机/虚拟机ping不通外网的解决方案

搭建分布式集群,计划:一台宿主机,三台虚拟机主机将虚拟机镜像文件解压并拷贝三份 (这里的镜像已经配好静态ip)在 VMware Workstation分别打开三台虚拟机,点击“文件” - “打开”3. 因为是复制的,所以现在里面的所有配置一模一样,需要修改IP、host、网卡hadoop01虚拟机正常启动,网络正常,不用修改(静态ip啥的已经配好的);hadoop02和hadoo...

2020-04-18 21:16:10 2671

原创 解决:Error in library(lubridate) : 不存在叫‘lubridate’这个名字的程辑包

2020-04-17 19:55:24 6213

转载 思考题:存储了100亿个非法网页的url地址。每个URL地址的大小占用64B。要求实现一个网页过滤系统,内存使用不能超过30GB,此外,允许有一定的误判率,但是不能超过万分之一

思考题:存储了100亿个非法网页的url地址。每个URL地址的大小占用64B。要求实现一个网页过滤系统,内存使用不能超过30GB,此外,允许有一定的误判率,但是不能超过万分之一...

2020-04-15 17:34:34 855

原创 SQL语句中where和having的区别

WHEREHAVING过滤行过滤分组分组前过滤分组后过滤

2020-04-14 12:40:56 191

转载 10分钟搞懂分布式锁,程序员进阶之路

https://baijiahao.baidu.com/s?id=1631710781249826646&wfr=spider&for=pc

2020-04-07 10:07:46 117

原创 使用Scala实现VSM向量空间模型算法实现的简单实例

VSM (Vector Space Model) 向量空间模型算法,可用于文档排名,推荐系统def main(args: Array[String]): Unit = { val a1= Array(1,2,5) val a2= Array(3,4,6) val r = vcos(a1, a2) println(r) } /*取模*/...

2020-04-01 19:05:20 251

原创 Scala统计单词出现的频次

用Scala统计单词出现的频次,其中到的方法有:map, flatMap, split, groupBy, mapValues, reduce, sum, foldLeft…使用Scala WorkSheet,是一次很好的综合练习。/*练习:统计出list中单词出现的频次*/val list = List("hello world","hello guangzhou","hello she...

2020-03-31 19:12:20 1520

原创 HBase架构及存储图

随便画画,若有理解不对的地方,请大佬指出~~

2020-03-24 21:01:38 177

原创 Hive中UDF自定义函数

使用Java开发Hive的自定义函数。需求:函数repeatstring(str,num) - 字符串str重复数字num次。创建maven工程,并导入依赖创建Reapeat类,继承UDF类,实现的方法必须叫evaluat–Hive才能认识哦~打包成jar包,上传至服务器删除jar包内容,不删会影响程序执行哦~zip -d H_Hive.jar 'META-INF/.SF' ...

2020-03-21 12:16:30 171

转载 HashTable、HashMap和ConcurrentHashMap的区别

HashTable  继承于Dictionary, 不可存储null键和值, 底层基于数组+链表(HashTable数据结构不同于HashMap的是,不会转化为红黑树),父类方法少于AbstractMap, 只有基本的get, put, remote, 没有putAll, keySet等, 线程安全。  线程安全。线程安全主要依靠synchronized关键字,因此效率较低。初始化最好赋值si...

2020-03-20 08:49:47 123

原创 计算机存储单位全称KB/MB/GB/TB/PB/EB/ZB

单位英文全称中文全称转换KBKilo Byte千字节1KB=1024BMBMega Byte兆字节1MB=1024KBGBGiga Byte千兆1GB=1024MBTBTrillion Byte万亿字节1TB=1024GBPBPeta Byte千万亿字节1PB=1024TBEBExa Byte百亿亿字节1EB...

2020-03-18 15:42:02 9373

原创 win10怎么取消文件默认打开方式

卸载UltraEdit后,每次打开文件都是询问是否以UltraEdit打开,关键都已经卸载了!后来面向搜索引擎操作,把相关文件和注册表一顿删除,还是会在打开.txt的时候询问以何种方式打开,实在太烦了!终于搜到一种有效的方式!记录一下~win10取消文件默认打开方式的解决方案win+R调出运行窗口,输入regedit找到一级目录找到对应后缀的文件夹,右键删除找一级目录HKEY_C...

2020-03-12 10:02:32 14269 2

原创 解决SpringBoot启动时异常:BeanDefinitionStoreException和ConflictingBeanDefinitionException

启动服务出现的异常org.springframework.beans.factory.BeanDefinitionStoreException: Failed to parse configuration class [cn.StarterImg]; nested exception is org.springframework.context.annotation.ConflictingBea...

2020-02-20 16:29:21 33574 4

原创 linux-vim的基本操作

今天有时间,整理一下vim的基本操作~什么是vim是一个类似vi的文本编辑器,不过在vi的基础上增加了很多新特性,vim被公认为类vi编辑器中最好用的一个。为什么要学vimvim在vi的基础之上增加了很多的小功能。可以有效的帮助程序员快速的排查问题。很多系统都内建vi编辑器,其他的文本编辑器不一定有,很多软件都会主动调用vi的接口vim的三种模式一般模式、编辑模式、命令模式一般模...

2020-02-13 13:43:14 190

原创 SQL语句的书写顺序和执行顺序

sql语句的书写顺序:select >> from >> where >> group by >> having >> order by注意:1. select和from是必须的;2. where和having不能同时使用;3. having和group by联合使用;sql语句的解析顺序 :from >> wh...

2020-02-05 20:35:59 3937 1

原创 Linux-Centos6.5网络配置静态ip的详细步骤

每次配置过程总会卡壳,每次还得各种网上找方法。今天记录一下,下次就按这个步骤来!1.查看当前服务器所使用的的ipifconfig2.配置服务器静态ipsetup回车键进入网络配置进入"设备配置"进入"eth0"在"网络配置"中输入静态ip(为当期服务器的ip),子关掩码,默认网关IP,主DNS,第二DNS如下图Tab键选择"确定" >> “保存” &g...

2020-02-03 15:06:07 983

原创 通过正则表达式截取并删除sql语句不需要的部分

建立一个城市数据库,共github找的一份sql,然而并不想要多于的字段,于是通过正则表达式截取并删除。由于想了很久,记录一下~正则表达式\,\s\'[0-9]+\'正则表达式解析符号解析\,转译逗号\s空格\’转译引号[0-9]+正整数通过正则表达式查找删除不需要的字段...

2020-01-29 14:37:11 1383

原创 解决idea: 'git' 不是内部或外部命令,也不是可运行的程序 或批处理文件。

问题:IDEA无法使用git解决方法:配置windows环境变量右键“我的电脑” – “属性” – “高级系统设置”点击"高级" – “环境变量”点选"系统变量" – “Path” , 新建Git的安装路径到bin欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文...

2020-01-23 23:18:14 19275 2

原创 如何创建Mysql快速连接的bat文件

新建文本文档,输入以下内容mysql --default-character-set=gbk -uroot -proot将后缀名改为.bat

2019-12-05 15:56:11 458

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除