自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

八月小渣渣的博客

我要养一条秋田,再养一只短耳,然后天天伺候它们~~~~

  • 博客(33)
  • 资源 (1)
  • 论坛 (1)

原创 SQL 技巧记录

记录日常遇到的SQL问题及解决办法,持续更新HIVESQL 中截取某一指定字符之前或之后的字符SELECT split('abc_123', '_')[0] -- 输出 abcSELECT split('abc_123', '_')[1] -- 输出 123 2. 随机选取一定数量的样本order by rand() limit 2...

2019-11-08 19:21:05 67

原创 python -- Jupyter Notebook 扩展插件nbextensions几个功能的介绍

这里面介绍jupyter拓展插件nbextensions里的几个功能的介绍nbextensions插件的安装见我之前的文章:链接安装完重启jupyter,在主界面选择上图中就是可以点选添加的功能,选几个自己用的做一下介绍(实际上自己点击,页面下方就会有对这个功能的介绍和预览,所以只以最简单的方式介绍)Table of Contents(2)功能:形成目录栏Toolbar按...

2019-01-17 17:21:19 9899

原创 python - 老版身份证号码转为新版身份证号码(15位转18位)

【问题描述】老版的身份证号码是15位的,有些政府网站上登记的是老版的号码,15位,未做更新,所以需要手动更新为18位。【解决办法】import numpy as npdef id_corrected(id_card): """ 将老版15位身份证号码转化为新版的18位身份证号码 逻辑:1-6位是地区号码——》保持不变 7-12位是生日yy...

2018-11-05 18:55:14 4106

原创 R - 【解决Error in source(file.path) : invalid multibyte character in parser at line *】

【问题描述】:在使用source函数导入自建函数时报错: Error in source(file.path(code_path, "f_recode_bad_1.R")) :   invalid multibyte character in parser at line 10【解决办法】:添加参数  【encoding = "utf-8"】如下:source(file...

2018-10-10 15:19:43 2442

原创 python -- 找出列表list中的重复元素

【问题描述】一个列表中可能含有重复元素,使用set()可以实现列表的去重处理,但是无法知道哪些元素是重复的,下面的函数用于找出哪些元素重复了,以及重复的次数。【问题解决】from collections import Counter #引入Countera = [29,36,57,12,79,43,23,56,28,11,14,15,16,37,24,35,17,24,33,1...

2018-08-28 11:18:02 18138 2

原创 python -- 批量解析dataframe中的json串并形成新的字段

最近遇到了类似这样的问题:批量解析数据库中某张表的某一列(json串形式存储),效果如下。图1 原始数据库中的数据 图2 处理后的数据形式为此,我编写了如下的python脚本def main(table_source,var_name): """ 【批量解析json串】 入参: table_source:含义:来自数据库的库名.表名...

2018-08-10 13:57:45 5479 10

原创 机器学习 --Kmeans聚类理论小结

下面是对K-means聚类的理论做的小总结一 算法原理 二   复杂度分析 三 优缺点优点:快! 缺点: 1. 依赖初始值的选取,不同的初始值得到的结果不同;            2. 得到的结果是局部最优,而非全局最优            3. K(聚成几个类)需要提前给定(待补充。。。。。。。。。。。)  ...

2018-08-07 15:54:44 164

原创 机器学习小问题 -- 生成式模型与判别式模型

本篇博文总结最近学习到的生成式模型与判别式模型的知识。1. 简介就像之前在总结分类和聚类时说的一样,机器学习基本在做的事情就是在分类、打标签,我们的模型也就像一个个分类机器(个人看法,欢迎指正)。而这么多的模型,可以分为两类:生成式模型与判别式模型。对于一个分类器,当我们丢进去 x 以后,那么我们到底该如何决定它该分到哪一个标签呢,也就是它抛出的 y 会是多少呢?很自然地,我们会想到使...

2018-08-03 17:50:38 566

原创 SQL -- MYSQL迁移到TiDB遇到的问题及解决办法

下面仅记录遇到的问题和解决方法1. 无法插入大量的数据解决办法:在插入之前添加参数SET @@tidb_batch_insert=1; 2. 数据量很大时,无法使用update来批量更改表格某一列的值解决办法:改成使用ADD COLUMN的方法ALTER TABLE   table_name  ADD COLUMN   column_name  column_type ...

2018-08-02 16:34:18 4113

原创 机器学习小问题 之 分类与聚类有什么区别?

机器学习中的大部分问题都可以归为聚类或者分类问题。例如,我们利用神经网络来进行手写体数字识别,无非是将所有手写体数字图片分为标签为0,1,2,...,9这10个类别。当我们分别来谈论聚类和分类问题时,我们对这两个概念都不陌生。但是,当我们将两者放在一起来谈时,我们可能又会发现,我们对二者的界限是很模糊的,仿佛二者说的是同一件事情。所以,接下来我们就来梳理一下二者到底有什么区别。目录...

2018-07-26 18:03:36 1230

原创 python -- 有关字符串的函数总结

这篇文章总结的是有关字符串的函数 ,并且附代码示例,不断更新中

2018-07-19 18:19:08 186

原创 python -- 倒序输出字符串

面试时被问到下面的倒序输出字符串的问题:将  "Python/R/Mysql/Hive"   转化为    "nohtyP/R/lqsyM/eviH"因为我只会python,所以,就以python的角度思考。我认为这个问题涉及以下3方面:1. 根据子指定的分隔符进行划分;2.对指定字符串进行逆序输出;3.分割后的子字符串用指定分隔符连接。下面是我的做法:str...

2018-07-19 15:45:50 3190

原创 机器学习小问题 之 人工智能、机器学习与深度学习的区别与联系

这几天参加了美团的提前批面试,被问了这个问题,一下子就蒙了(好丢人。。。)。回来赶紧学习一下,总结在这里。目录一、总述:1.发展顺序2.包含关系三、细说三者: 1.人工智能(Artificial Intelligence,AI) 2. 机器学习(Machine Learning)3.深度学习(Deep Learning) 四、结束语五、参考链接  一...

2018-07-18 14:14:05 382

原创 python -- 字符串的替换

【问题描述】python中的空值是用None来实现的,但是在实现java的指标上线时,无法解析我的字符串中的None字符,所以我需要将字符串中的None转化为null。即:字符串转化:"None" -> "null"【问题解决】两种方法:1.利用replace函数:string_old.replace(str_from,str_to)string_old就是你要更改的字符串,str_from...

2018-07-10 11:58:04 11291 1

原创 python-关于None,NaN , 空字符的比较与处理(2):如何判断python中的NaN?

【问题描述】如何判断是不是NaN值?【问题分析】例如:a = NaNtype(a)print(a == nan)print(a is nan)从结果,会发现,用==无法判断NaN。实际上,即使第二种方法也不一定会得到正确的判断。【解决办法】如果想准确的判断NaN,那么就用math下的isnan函数吧:math.isnan(a)问题解决!(仅供个人学习,不符任何责任~~~~~~~~~~~~~~)...

2018-07-09 16:19:00 14239 1

原创 python -- 用merge函数在python中实现 join 操作

又发现了pandas包里面的一个好用的函数——merge函数!!!!!!!【描述】merge函数类似于mysql等数据库语言中的join函数,可以实现对两个DataFrame的条件合并。【准备】import pandas as pdimport numpy as np【语法】(1)当两个DataFrame的关联列名称相同时:merge(DataFrame_A,Da...

2018-07-03 18:19:35 5705

原创 python -- Jupyter Notebook 添加目录索引、更换主题、解决工具栏隐藏问题

目录 一、添加目录索引二、更换主题三、 解决更改主题后工具栏ToolBar隐藏问题一、添加目录索引步骤一:安装扩展包 jupyter_contrib_nbextensionspip install jupyter_contrib_nbextensions 步骤二:配置 nbextensionsjupyter contrib nbextension insta...

2018-06-21 17:15:55 9858 7

转载 (转)机器学习 -- 一篇超级棒的介绍随机森林的文章,写的太好了,读起来简直清爽!!!

发现一篇超级棒的介绍随机森林的文章,写的太好了,读起来简直清爽!!!就是这篇!!!!!!去读!!!!!!!![Machine Learning & Algorithm] 随机森林(Random Forest) 膜拜!!!!!!...

2018-06-19 18:52:38 1506

原创 机器学习 --决策树学习(超级完整!含python代码!)

***********写在前面*************************************************************************************************本文章所有内容都是我从其他前辈处摘录过来的,本人只是做了相应的整理,在文章中也标注了某一段的来源,文章结尾附了链接~~~~~~~~~~***********以下是正文*...

2018-06-19 14:00:18 2979

转载 (转)python -- python之pandas简单介绍及使用(一)

一、  Pandas简介Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。Pan...

2018-06-15 18:31:34 251

转载 (转)python--Pandas 的 apply 函数使用示例

看到一篇写apply函数的,感觉很好,转载到这边~------------------正文分割线-----------------------------------------------------------------------------------------------------apply 是 pandas 库的一个很重要的函数,多和 groupby 函数一起用,也可以直接用于 ...

2018-06-15 16:40:57 2459

原创 python -- 解决字典【KEY ERROR】

【问题描述】通过KEY来获取对应的值时,如果KEY不在字典中,就会报错KeyError,引起程序运行终止。例子:test_0 = {"id":[1,1,2,3,3,4,5,5],"price":[5,6,8,3,4,6,9,5],"amount":[1,1,2,1,1,1,2,1],"status":['sale','sale','no','no','sale','no','sale','no']...

2018-06-13 16:30:17 6609

原创 python--创建一个与已有DataFrame行数相同的数据框的方式

【问题描述】已有数据框A,然后想创建一个数据框B,使得数据框B的数据行数与A相同例子:A = {"id":[1,1,2,3,3,4,5,5],"price":[5,6,8,3,4,6,9,5],"amount":[1,1,2,1,1,1,2,1],"status":['sale','sale','no','no','sale','no','sale','no']} A = pd.DataFram...

2018-06-13 15:27:18 2419

原创 python -- 解决If using all scalar values, you must pass an index问题

【问题描述】在将dict转为DataFrame时会报错:If using all scalar values, you must pass an index例如:summary = pd.DataFrame({key:value for key,value in test.items()if key in index}) #查看汇总表情况【解决办法】添加参数:index = [0]summary ...

2018-06-13 12:08:05 16587

原创 python--从字典中提取子字典并转成DataFrame的方法

【问题描述】我想从已有字典中提取出几个键值对构成新的字典,然后为了方便查看,再转成DataFrame格式。【问题解决】test_0 = {"id":[1,1,2,3,3,4,5,5],"price":[5,6,8,3,4,6,9,5],"amount":[1,1,2,1,1,1,2,1],"status":['sale','sale','no','no','sale','no','sale','n...

2018-06-13 11:40:55 7173

原创 python -- 解决使用groupby函数之后索引上移问题

【问题描述】对于一个数据框,当我们对按每一个变量进行groupby之后再对另一个指标进行分组统计时,得到的的结果转成DataFrame之后会发现,统计的指标标签会上移。这回造成索引问题。例子:test_0 = {"id":[1,1,2,3,3,4,5,5],"price":[5,6,8,3,4,6,9,5],"amount":[1,1,2,1,1,1,2,1],"status":['sale','...

2018-06-12 16:47:42 2816

原创 python--解决【Setting With Copy Warning】问题

【问题描述】在向DataFrame中按照一定条件添加一列时,会出现【Setting With Copy Warning】报错的问题举例:先建立一个示例数据框:test_0 = {"id":[1,1,2,3,3,4,5,5],"price":[5,6,8,3,4,6,9,5],"amount":[1,1,2,1,1,1,2,1],"status":['sale','sale','no','no','...

2018-06-12 14:44:22 1990

原创 python-Key Error问题

【问题描述】当从数据库以标签形式大批量处理数据时,会因为不同的数据返回的标签数目不同而导致在使用标签来来索引数据时出现问题。(pandas转为数据框之后)例如数据:a = {"id":[1,2,3,4,5],"birthday":['2000-01-01','',None,'2000-01-19',NaN],"name":['王菲','莫文蔚',NaN,None,'林宥嘉'],"score":[1...

2018-06-11 17:35:57 24347

原创 python-关于None,NaN , 空字符的比较与处理(1)

【问题描述】在python中经常会遇到这三个特殊值情况。尤其是导入数据文件时,就会遇到这种问题(如csv文件、数据库数据等),这些类型的数据在函数中使用需要十分小心。下面对该类型数据进行分析。【类型分析】from numpy import NaNfrom pandas import Series, DataFrameimport numpy as npimport pandas as pdt...

2018-06-11 15:47:34 16818

原创 python-检查是否为中文字符串

【目标需求】查看某一个字符串是否为中文字符串【解决办法】def check_contain_chinese(check_str): for ch in check_str: if u'\u4e00' <= ch <= u'\u9fff': return True else: ...

2018-06-08 18:00:37 4391 1

原创 python-时间戳转换相差8小时问题

【问题描述】在将时间戳timestamp转化为固定时间格式的时候,会相差8小时例子:create_time_temp = get_col_name(my_dict,'create_time') #自写的取变量数值的函数,得到的是个时间戳dateArray = dt.datetime.utcfromtimestamp(create_time_temp/1000)create_time = dat...

2018-06-08 11:34:01 9231

原创 hive--解决join后仍出现笛卡尔积的问题(1)

【问题描述】使用了join之后,发现同一条记录被复制了很多次。但是明明没有采用笛卡尔积的join方式啊???举例:select a.*from ht_insurance_temp_3_1 ajoin (select distinct a.id ,a.insurancemonth ,count(*) ...

2018-06-05 15:14:50 279

原创 hive--解决使用not in之后返回数据为空的问题

【问题描述】当使用了not in 之后,发现查询返回的数据为空。举例:select *from ht_insurance_datawhere c_insurance_record_description not in ('基数补缴','滞纳金补收','补收利息(复利)','补收记录','欠款补缴','差额调整','个人缴利息','单位缴利息','差额调整','缴费基数调整补收'...

2018-06-05 14:55:11 1276 2

Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data

KDD2017最佳论文,介绍一种时间序列分割聚类的方法,对处理时间序列聚类的问题具有很大的参考意义

2018-10-31

头像无法改变

发表于 2018-07-20 最后回复 2018-07-21

空空如也
提示
确定要删除当前文章?
取消 删除