自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Hive:Either list of columns or a custom serializer should be specified等两个问题

这几天被拉去写了几天SQL,出现了两个新的问题……说实话实在太蠢了,所以一定要记录下来:1、Either list of columns or a custom serializer should be specifieddrop table if exists table1;create table if not exists table1; asselect * from temp.card_version0当写了一万行SQL的时候,很容易在细枝末节上出现问题,比如第二行多了一个分号……这

2020-08-26 16:59:40 6583 1

原创 python删除list元素小结

昨天在工作中遇到在list里删除元素的小bug,后来发现网上已经有不少人总结提炼了一下bug的发生原因和处理方法,我自己也记录一下。问题# Delete elements from a listdef remove_list(li,drop_list): for i in li: inx = li.index(i) if i in drop_list: del li[inx] print(li)li1 = [1, 2, 2,

2020-08-18 14:42:02 1391

原创 R的数据操作基础(一)——变量操作与数值处理

在掌握数据的结构和导入之后(参见R的数据结构与导入),我们开始对数据进行操作处理,在本次笔记中我们使用一个5行10列的,主题是“领导行为的性别差异”的简单数据集,q1-q5是五项服从力评分,分数没有显著的优劣性。年龄=99代表缺失。整个数据集如下:下文我们用le(leadship)的数据框变量来承载这个数据集。变量操作新变量创建新变量的格式是变量名 <- 表达式,除了四则运算以外,**^**表示求幂,x%%y表示求余(x mod y),x%/%y表示整数除法(x div y)。比如我们想要求

2020-08-17 23:36:41 1120

原创 R的数据结构与导入

在实际工作中我们往往需要从外部导入数据,而在此之前,我们还应先了解R中的数据结构。数据结构向量向量用来储存数值型、字符型和逻辑型。核心函数是c(),在下面的示例中,a,b,c三个向量分别被赋予了三种不同类型的数据。同一个向量中数据类型要求一致。此外,我们可以灵活运用方括号来定位向量中的元素,要记得在R中冒号“:”表达的是生成一个数值型数列的意思,2:6即为生成一个2,3,4,5,6的数列。a <- c(9,1,8,2,7,3,6,4,5)b <- c("a","z","b","y","

2020-08-16 10:09:18 307

原创 向hive插入数据时出现中文乱码

问题顾名思义,在通过shell或hue向hive插入数据时,有可能出现中文乱码。和运维GG聊了一下以后,说这个是集群缺陷问题,以后会解决。那眼下的处理方式呢?我想了个简单的办法:--出现乱码insert into temp.Iceelfluo_featurelist PARTITION(ymd='2020-08-10') values ("3517146571244","张三","6","0","3");--不出现乱码insert into temp.Iceelfluo_featurelist

2020-08-10 17:00:23 1132

原创 CTRW的化学主方程推导(下)

https://blog.csdn.net/IceelfLuo/article/details/107891535书接上回:定义msm_{s}ms​:代表不同物种的个数mrm_{r}mr​:代表不同反应的个数,物种与反应共同组成一个反应系统。SjS_{j}Sj​:代表不同的物种,jjj的取值从1到msm_{s}ms​njn_{j}nj​:物种SjS_{j}Sj​对应的粒子数n=(n1,⋯ ,nms)T\mathbf{n}=\left(n_{1}, \cdots, n_{m_{s}}\right

2020-08-10 16:35:52 439

原创 CTRW的化学主方程推导(上)

连续时间随机行走(continuous time random walk)是一种常见的扩散模型,化学主方程也和扩散有关,所以思考CTRW模型下的化学主方程的推导。公式比较多,分几部分来写。定义

2020-08-10 14:17:15 571

原创 R基础操作

R语言,统计学的门槛,虽然进工业届以后用R的机会略微变少了,但是考虑到这玩意是以后的吃饭工具,所以重新捧起了R语言实战R in Action,且算完成了不少这本书的阅读和操作。接下来就是要将有用的内容和以后需要用到的内容做成笔记保存起来。前言为什么使用R,因为是统计学的门槛,当然还有其它各种原因,比如R是开源的,跨平台的etc。R中最常见的基础操作包括:获取帮助、工作空间和工作路径、输入和输出、包的载入和使用,下面列出相关的函数。帮助文件help.start() #打开文件帮助首页help(

2020-08-07 14:30:36 192

原创 瓶中阳光——雪莉之美

曾登上至高之天,也曾踏破至深之渊,苍穹为被,大地为家,左手鲁特琴,右手金凤花,大家好,我是好酒的吟游诗人落落。今天我们来分享一点雪莉酒的故事。如果让我来说一点雪莉酒的故事,我会先问一个问题:你听说过APTX-4869嘛?这一串神秘的字符对大多数人应该是陌生的,但是如果我再说到灰原哀,可能就很多人比较熟悉了。漫画《名侦探柯南》及其衍生作品中的主要角色,帝丹小学一年B班学生、少年侦探团成员……在这其中,最重要的身份便是黑衣组织前成员,代号“雪莉”。这个黑衣组织着实有趣,成员们的代号多为各种酒,比如苦逼的金发

2020-08-07 11:13:42 726

原创 python特征归一化与标准化

综述特征处理中,归一化和标准化是不变的话题。最近看了不少归一化和标准化相关的文献,发现还是有点坑的。但是我不管也不打算讲清楚这俩的区别,当工业界模型要求不高,数据量又大的时候,冲上去一通操作就行了。不过我们还是要掌握最基础的知识:概念归一化:归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。标准化:在机器学习中,我们处理的数据可能是高维度的,再这样的前提下,我们会考虑标准化方法

2020-08-05 14:10:33 1844

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除