自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 虚拟机联网

由于下载的是linux系统是mini版本的,有些命令需要自己下载,没有网络怎么能行。先查看网络适配器????是默认的配置,没有看出有啥问题。那就是网卡配置问题,首先需要看下网卡的名称是什么编辑网卡配置的文件按照下图的配置,保存即可。验证:至此连上网络了,细水长流~...

2020-11-20 17:27:22 168

原创 mac安装linux虚拟机

用的mac系统,很多linux中的命令不存在,一直想着安装个虚拟机,不过处于想的阶段,最近终于下定决心动手搞起来下载linux系统:https://mirrors.tuna.tsinghua.edu.cn/centos/7/isos/x86_64/本来是要下载DVD版本,4.4G!!下载速度感人,放弃了,先下载个mini版。下载虚拟机:https://my.vmware.com/web/vmware/downloads/details?downloadGroup=FUS-1016&pr

2020-11-20 17:13:18 3472 2

原创 解析mongo中的日志信息,利用kettle将结果插入到数据库

往表save中插入三条记录>db.log.save({no:"089560",testName:"2020-07-23.txt",data:[{"c1":"ok","c2":"3"},{"c1":"ok","c2":"3"},{"c1":"ok","c2":"3"},{"c1":"ok","c2":"3"}],startTime:"11:05:40",status:"S",no:"Q10845S",startDate:"2020/07/23",logTime:"2020/07/23"})>d

2020-07-24 16:02:29 418

原创 sql取出位于字符串后面的数字

现在有个需求是:从字符串中找到电话号码,类似于:abcd19090909091 或者hello 9089890,找到19090909090网上搜索好久,大部分都是数字部分在字符串的前面。在后面的如何处理呢,想到一个非常绕的方法,利用reverse函数,如下:select reverse(cast(REVERSE('abcd19090909091 ') as UNSIGNED)) ;select reverse(cast(REVERSE('hello 1234567 ') as UNSIGNED))

2020-06-28 17:49:08 1260

原创 awk相邻记录相加

对于不同批次检出出的水果数量累加cat a.txt苹果 Apple 10梨 pear 8柠檬 lemon 4梨 pear 8桃子 peach 11梨 pear 10苹果 Apple 8梨 pear 8梨 pear 2桃子 peach 18梨 pear 1桔子 orange 51)首先对文本进行排序,按第一列名称...

2020-04-27 10:49:25 180

原创 利用awk对比并拼接文本

awk对比文本如下所示,假如文本如下,一共三列,第一列表示水果的名称,第二列表示英文表示,对于a中的第三列表示合格的数量,b中的第三列表示不合格的数量,现在的需求就是将同一水果的合格数量和不合格数量放到一个文本中(base) localhost:~ hanerli$ cat a.txt苹果 Apple 10梨 pear 8柠檬 lemon 4桃子 peach 18(b...

2020-04-26 18:30:28 420

原创 mac电脑搭隧道,连接远程mysql

第一次听到要搭建隧道,第一反应,是啥啥啥,隧道??想着可能和寻常登陆远程一样,用SecureCRT,结果不行,找了好几个可以搭建隧道的,都没有折腾成功,那就回归到起点吧,看直接在命令行不行,搜索得到可以这样写ssh -p 搭建隧道的端口 -fNL 本地端口:远程ip:远程端口号 搭建隧道的账号@搭建隧道的ip注意其中有个@符号本地端口:比如3307回车,输入密码后便可以到navicat去...

2020-03-24 18:23:47 1202

原创 python中dump、dumps、load、loads的区别

dumps和loads比如现有一个字典,x = {'name':'hello','tell':'world’}此时y是个字符串y = json.dumps(x) '{"name": "hello", "tell": "world"}'此时z是个字典,现出了原形,即为x的模样。z = json.loads(y) {'name': 'hello', 'tell': 'world'}...

2020-02-26 11:34:38 293

原创 iloc和loc的区别

对iloc和loc的不同,总是模棱两可,下面通过测试对比一下import pandas as pdimport osimport numpy as np设置文件夹os.chdir("/Users/XXX/Documents/csv“)打开文件、赋值并添加索引In [8]:df = pd.read_csv("ex6.csv”)In [9]: df1 = df.head(10) ...

2020-02-25 10:58:52 1926

原创 学习笔记(07):Python数据清洗实战-操作数据库

这里需要mysql-connector插件,在终端:pip install mysql-connector封装一个方法中,每次需要操作时只需传入表名即可import mysql.connectorimport pandas as pddef query_test(table): db = mysql.connector.connect( host="localhost...

2020-02-21 09:25:06 328

原创 学习笔记(06):Python数据清洗实战-Excel文件读写

本次课程主要以真实的电商数据为基础,通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。

2020-02-20 21:42:55 343

原创 学习笔记(05):Python数据清洗实战-csv文件读写

本次课程主要以真实的电商数据为基础,通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。

2020-02-20 21:22:34 1663

原创 join的不同用法的总结

笛卡尔积:cross join笛卡尔积是将两个表的任一记录相互组合,如果A有m条记录,B有n条记录,那么通过笛卡尔积产生的结果就会有m*n条记录。产生迪卡尔积有三种情况:select * from A cross join B;select * form A inner join B; #如果有on的话,就是内连接,即求交集select * from A,B;#注意,此时不能用on或者u...

2020-02-20 10:01:42 704

原创 学习笔记(04):Python数据清洗实战-Pandas常用数据结构dataframe和方法

本次课程主要以真实的电商数据为基础,通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。

2020-02-19 21:46:29 257

原创 学习笔记(03):Python数据清洗实战-Pandas常用数据结构series和方法

本次课程主要以真实的电商数据为基础,通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。

2020-02-19 21:13:59 130

原创 学习笔记(02):Python数据清洗实战-Numpy常用数据清洗函数

本次课程主要以真实的电商数据为基础,通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。

2020-02-17 21:45:09 221

原创 学习笔记(01):Python数据清洗实战-Numpy常用数据结构

本次课程主要以真实的电商数据为基础,通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。

2020-02-14 21:55:13 141 1

原创 hbase的简单应用

#每次运行hbase shell之前一定要到进入/usr/local/Cellar/hbase/1.3.5/bin 目录下,运行./start-hbase.sh,进行启动。在终端hbase shell1.新建表hbase(main):049:0> create 't1',’f1'0 row(s) in 1.2610 seconds=> Hbase::Table - t12...

2020-02-12 11:48:16 254

原创 sqoop基本操作

列出数据库sakila中的表:sqoop list-tables --connect jdbc:mysql://localhost/sakila --username root --P创建一张跟数据库sakila中city表一样的hive表city_copysqoop create-hive-table --connect jdbc:mysql://localhost/sakila --...

2020-02-07 11:25:51 302

原创 hive编程指南--hiveQL基本操作

新建employees表CREATE TABLE IF NOT EXISTS mydb.employees ( name STRING COMMENT 'Employee name', salary FLOAT COMMENT 'Employee salary', subordinates ARRAY<STRING> COMMENT 'Nam...

2020-02-07 10:57:24 331

原创 mac安装sqoop

在hadoop 3.2.1和hive 3.1.2的基础上,配置sqoop。下载brew install sqoop #这个下载遇到了错误到http://www-eu.apache.org/dist/sqoop/1.4.7/ 链接下载这个hadoop-2.6.0不知道与我本地安装的hadoop3.2.1有咩有啥冲突哇。上面的连接太慢了,可以用这个:http://mirrors.hust....

2020-02-05 16:24:57 638

原创 mac电脑-配置hive

hive是hadoop的数据仓库,要练习,就自己配置环境吧。在~/.bash_profile中增加后两句source ~/.bash_profile #使之生效在cd /usr/local/Cellar/apache-hive-2.3.6-bin/conf/ 路径下复制并重命名:(base) localhost:conf XXX$ cp hive-log4j2.properties.t...

2020-02-03 16:21:21 515

原创 《hadoop数据分析》之hadoop命令

先建个文件夹(base) localhost:~ XXX$ hadoop fs -mkdir /corpora2020-01-13 09:47:44,788 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where ...

2020-02-02 11:53:02 2612

原创 mac安装hadoop3.2.1

安装hadoopHadoop的搭建有三种方式,本文章安装的是单机版单机版,适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式安装步骤:ssh免密等录(下面是一路回车到底,因为昨天安装过,所以有个询问是否ovewride的,那个选y)(1)ssh-keygen -t rsa(2)cat ~/.ssh/id_rsa.pub >> ~/.ssh/autho...

2020-01-31 12:10:00 1716

原创 新的开端

新的开端2020是个不平凡的一年,转行到数据分析部门,稳妥妥一枚小白老生常谈,好好学习,天天向上记录前进的步伐,保持上进的心

2020-01-31 11:53:48 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除