自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (8)
  • 收藏
  • 关注

原创 sqlAlchemy 多线程

Connection Pooling — SQLAlchemy 1.4 Documentation

2022-08-11 01:29:43 465 1

原创 SparkSQL 技巧 - cache table 缓存 和 stack生成列

–缓存性别表,表名sex,字段名sex,有2行cache table sex_table asselect stack(2,‘M’,‘F’) as sex;–缓存缴费期表,表名ppp_table,字段名ppp,有4行cache table ppp_table asselect stack(4,10,15,20,30) as ppp;–生成一个1~200的顺序表。因为接下来的连续的投保年龄,和连续的保单年度,都不会超过200,所以200已经够用。cache table seq_table as

2022-04-13 23:36:53 2085

原创 利用 repeat 和 posexplode 函数生成日期小时等时间序列表

利用 repeat 和 posexplode 函数生成日期小时等时间序列表drop table if exists qt_report.temp_d_c_001;create table qt_report.temp_d_c_001select date_add(start_date_,st_index) as date_ from ( select start_date_ ,end_date_ ,

2022-03-28 19:10:10 339

原创 pymsql 查询结果返回字典

Python中让MySQL查询结果返回字典类型的方法import pymysqlhost='localhost'user='root'passwd='root'port=3306db='test'db=pymysql.connect( host=host, user=user, passwd=passwd, db=db, port=port, charset='utf8', cursorclass = pymysql.cursors.Di

2022-03-05 08:23:20 1356

原创 Hive 使用时长 转换为时间格式

这里写自定义目录标题from_unixtime 函数to_utc_timestamp 函数互联网公司最关注的数据指标,停留时长,使用时长 等等指标计算出来一般单位都是数值单位,xx秒,如30秒,12782秒或者xx.xx分钟,如4.5分钟,如果展现几分几秒的话,或许更直观,比如12782秒转换为03:33:02 或者是03时33分02秒现在有两种办法实现:都是借助linux时间戳是从 1970-01-01 00:00:00开始的原理实现from_unixtime 函数`hive> sel

2021-11-30 15:46:01 1219

原创 pandas DataFrame 按照30s 向下取整

print(ss['time'])0 2014-01-21 03:31:111 2014-01-21 04:53:552 2014-01-21 05:16:183 2014-01-21 05:55:054 2014-01-21 08:44:53ss['date_30s'] = pd.to_datetime(ss['time'].apply(lambda x: time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(int(x.ti.

2021-03-04 23:23:29 1767 1

原创 Python Pandas DataFrame多维的列索引 如何展开成为一维索引?

Python Pandas DataFrame多维的列索引 如何展开成为一维索引?df_stat = df.groupby(['Student ID'],as_index=False)['entropy', 'Out Count', 'In Count'].agg(['mean','std'])df_stat.columnsMultiIndex(levels=[[‘entropy’, ‘Out Count’, ‘In Count’], [‘mean’, ‘std’]],codes=[[0, 0

2021-03-04 22:13:17 2292 5

原创 datawhale——阿里天池--AI助力精准气象和海洋预测学习笔记 task1

项目背景问题陈述这个竞赛是一个自然科学相关的时间序列预测问题,要求基于历史气候观测和模式模拟数据,准确预测厄尔尼诺-南方涛动(ENSO)现象。具体来说,我们的任务就是根据过去12个月的气象及时空数据,预测未来24个月的Nino3.4指数。1 什么是ENSO现象ENSO现象是厄尔尼诺(EN)现象和南方涛动(SO)现象二者的合称。厄尔尼诺现象是指赤道中东太平洋附近的海表面温度持续异常增暖的现象。南方涛动现象则是热带东太平洋与热带西太平洋气压场存在的气压变化相反的跷跷板现象。在厄尔尼诺期间,东南太平洋.

2021-02-22 02:58:40 864

原创 DataWhale 零基础入门语义分割-地表建筑物识别-Task1

DataWhale 零基础入门语义分割-地表建筑物识别-Task1赛题理解赛题名称赛题名称赛题名称:零基础入门语义分割-地表建筑物识别赛题目标赛题目标赛题目标:通过本次赛题可以引导大家熟练掌握语义分割任务的定义,具体的解题流程和相应的模型,并掌握语义分割任务的发展。赛题任务赛题任务赛题任务:赛题以计算机视觉为背景,要求选手使用给定的航拍图像训练模型并完成地表建筑物识别任务。赛题为语义分割任务,因此具体的标签为图像像素类别。在赛题数据中像素属于2类(无建筑物和有建筑物),因此标签为有建筑物的像素。赛题

2021-02-20 23:35:59 288

转载 Python Pandas DataFrame分组排序

转载自 https://blog.csdn.net/ai_1046067944/article/details/86300634一、pandas分组*1、分组运算过程:split->apply->combine拆分:进行分组的根据应用:每个分组运行的计算规则合并:把每个分组的计算结果合并起来2、分组函数DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=Tr.

2021-02-08 21:14:32 3849

原创 一台电脑上的git同时使用多个github账户

一台电脑上的git同时使用两个github账户 需求:公司有github账号,自己有github账号,想在git上同时使用,两者互不干扰。思路:管理两个SHH key。解决方案:一、生成两个SSH key为了举例方便,这里使用“one”和“two”两个账户。下同。$ ssh-keygen -t rsa -C "one@gmail.com"$ ssh-keygen -t rsa -C "two@gmail.com"不要一路回车,分别在第一个对话的时候输入重命名(...

2021-01-29 17:06:30 246

原创 异常检测——高维数据异常检测

主要内容包括:Feature Bagging孤立森林文章目录1、引言2、Feature Bagging3、Isolation Forests4、总结5、练习6、参考文献1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中

2021-01-25 01:55:48 192

原创 datawhale 异常检测

基于近邻性的算法,我认为与 数据挖掘中的聚类算法一样,只是把小的类给标注为异常点,我认为一般情况下这样处理是对的,但是对于风控中的团案来说,抱团反而是异常点。以下内容主要摘抄自datawhale -异常检测 学习任务1. 基于距离的度量——适用各种数据域所谓基于距离的度量,即通过最近邻距离来定义异常值。其假设前提:异常点的 k 近邻距离要远大于正常点。计算:嵌套循环。 第一层循环遍历每个数据,第二层循环进行异常判断,需要计算当前点与其他点的距离,一旦已识别出多于 k 个数据点与当前点的距离在 D

2021-01-22 00:11:51 102

原创 whale异常检测task3- 线性模型

1、引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。   一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假

2021-01-19 01:31:48 105

原创 datawhale task2 异常检测——基于统计学的方法

主要内容包括:高斯分布箱线图1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。2、参数方法2.1 基于正态分布的一元异常点检测仅涉及一个属性或变量的数据称为一元数据。我们假定数据由正态分布产生,然后可以由输入数据学习正态分布的参数,并把低概率的点识别为异常点。阈值是个经验值,可以选择在验证集上使得评估指标值最大(也就是效果最好)的阈值取值作为最终阈值。

2021-01-16 01:50:37 123

原创 Markdown如何优雅地植入图片-附python代码

小伙伴们在Markdown文章中植入文章的方法一般有三种:1. 插入本地图片// 绝对路径![avatar](/user/desktop/Tarzan.png)// 相对路径![avatar](./Tarzan.png) 缺点不好分享,发给别人还得打个包,一点也不优雅。2. 插入图床或者网络服务器的网络连接![avatar](http://baidu.com/pic/Tarzan.png)对于写在私人博客网站或者只是简单地分享一下的话,还是有很多问题的。第一:要网络,断网环境严重体验。第

2021-01-15 11:03:19 593

原创 whale异常检测组队学习笔记task2--demo代码

对于异常检测的定义,网上文章汗牛充栋,作为经常copy paster的 我只能大概了解一下常用的使用场景,仅以此文记录一下一些经典的常用的异常检测代码 。感谢 O-A-A 大佬原文: https://blog.csdn.net/u012194696/article/details/112531362svmEllipticEnvelopeIsolationForestLocalOutlierFactorpyodTalk is cheap ,show me the code !import n

2021-01-12 22:54:19 321

原创 nodejs JWT 附源码

基于 Token 的身份验证:JSON Web Token(附:Node.js 项目)使用基于 Token 的身份验证方法,在服务端不需要存储用户的登录记录。大概的流程是这样的:客户端使用用户名跟密码请求登录 服务端收到请求,去验证用户名与密码 验证成功后,服务端会签发一个 Token,再把这个 Token 发送给客户端 客户端收到 Token 以后可以把它存储起来,比如放在 Cookie 里或者 Local Storage 里 客户端每次向服务端请求资源的时候需要带着服务端签发的 Toke

2020-12-06 22:37:18 180

原创 windows10 nodejs sqlite3 安装失败

这里写自定义目录标题windows10 nodejs sqlite3 安装失败如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入windows10 nodejs sqlite3 安装失败有什么比配置环境配置了几个小时更恶心?调用的时候会提示找不到sqlite模块。看似简单,却没有一点提示,国内网上

2020-12-04 23:19:54 1052

原创 XHR是什么?

Xml HttpRequest ????

2015-12-23 13:13:13 1325

原创 python 正则表达式精华 re.match与re.search的区别

re.match与re.search的区别re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。实例:#!/usr/bin/pythonimport reline = "Cats are smarter than dogs";matchObj = re.match( r'dogs

2015-12-19 20:23:56 661

原创 python pandas 自动填充,重新采样 resample

# -*- coding: utf-8 -*-import pandas as pdfrom datetime import datetimea=pd.date_range('2015-11-1','2015-11-2',freq='h')print aimport pandas as pdfrom pandas import DataFramefrom pandas impor

2015-12-07 09:50:54 13573

转载 python中 可变与不可变对象

面试中关于Python的参数传递1 天前• coco •2 评论 • Python , 面试先看代码:Python1234a = 1def fun(a): a = 2print a #1################Python1234b=[]

2015-11-15 02:26:24 458

原创 beautifulsoup抓取 class 关键字

在这里我们想用 class 过滤,不过 class 是 python 的关键词,这怎么办?加个下划线就可以soup.find_all("a", class_="sister")# [Elsie,# Lacie,# Tillie]1234soup.find_all("a",class_="sister")# [

2015-11-09 18:32:18 13407

原创 python return

函数的return 一定要写在关键的地方。不能乱写下面两组区别,你懂吗?任务结束之前才能return conn=MySQLdb.connect(**connection)cur=conn.cursor()cur.execute(sql)results=cur.fetchall()conn.cursor().close()conn.commit()conn.close()retu

2015-10-26 21:01:30 735

翻译 myql中的decimal

原文:http://dev.mysql.com/doc/refman/5.6/en/precision-math-decimal-characteristics.htmlmyql中的decimal mysql 的每个字段类型之间的差别虽小,但是在海量数据当中还是能提现出来的。列的声明语法是DECIMAL(M,D)。在MySQL 5.1中,参量的取值范围如下:

2015-10-26 17:12:49 554

转载 mysql出现Waiting for table metadata lock的原因及解决方案

http://www.cnblogs.com/dyllove98/archive/2013/07/16/3194332.html最近经常遇到mysql数据库死锁,郁闷死, show processlist; 时 Waiting for table metadata lock 能一直锁很久 下面有官网的一段话,可以理解下 http://dev.mysql.com/do

2015-10-26 14:47:55 16116

转载 Python模块包中__init__.py文件 精髓

原文:http://www.douban.com/group/topic/24075924/                  本人有删改 参考  http://www.cnblogs.com/tqsummer/archive/2011/01/24/1943273.htmlPython    packages   __init__.py包的精髓在 _

2015-10-23 21:31:35 3054

转载 python模块包调用解析

原文  http://wuyanzan60688.blog.163.com/blog/static/1277761632011102113211189/A   |----- __init__.py   |-----  a.py   |---------B         |--------- __init__.py         |--

2015-10-23 21:20:15 732

翻译 utf8mb4和utf8区别

http://dev.mysql.com/doc/refman/5.5/en/charset-unicode-utf8mb4.htmlutf8mb4比utf8支持更多的字符????10.1.10.6 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding)The chara

2015-10-21 09:43:28 996

图论经典算法

经典 图论 算法

2013-01-23

数学建模美国赛英语论文写作技巧

数学建模美国赛英语论文写作技巧 让你的论文质量突飞猛进!

2013-01-23

论英文科技论文的写法

论英文科技论文 专业写论文,写英语文章 科技类文章

2013-01-22

数学建模美赛O奖论文集

数学建模 美赛 O奖论文集

2013-01-22

matlab求线性回归多元

针对多元线性回归的解法。用matlab调试成功!

2013-01-22

哈夫曼编译码器

上学时代的数结构题目实验,大家可以学习学习。

2012-12-19

《MATLAB》电子教案.rar

matlab学习的经典教程。可以让新手学习,老手查阅的必备工具!

2012-08-26

计算机四级数据库工程师考试资料

数据库工程师用的,

2012-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除