BeKnown-CSDN博客

原创 SQL窗口函数OVER用法整理

SQL窗口函数OVER用法整理OVER的定义OVER用于为行定义一个窗口，它对一组值进行操作，不需要使用GROUP BY子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。语法OVER ( [ PARTITION BY column ] [ ORDER BY culumn ] [ROWS|RANGE BETWEEN 边界规则1 and 边界规则2])PARTITION BY 子句进行分组；ORDER BY 子句进行排序；ROWS|RANGE 框架是对窗口进行进一步的分区，框架有两种

2022-02-22 20:45:29 20116

原创数据预处理

训练数据预处理# -*- coding: utf-8 -*-# @Time : 2021/5/15 10:25 下午# @Author : jiangming# @FileName: data_preprocess.py# @Software: PyCharm# @Desc : 数据预处理，生成训练数据import datetimefrom pandas import DataFrameimport pandas as pdimport numpy as npfrom

2021-05-16 21:25:15 340

原创 Hive UDF函数编写

Hive UDF函数编写注意事项注意事项类必须要继承UDF，方法名称必须是evaluateimport org.apache.hadoop.hive.ql.exec.UDF;public class GcsGid extends UDF {public String evaluate(Double lat, Double lng, Integer layer) { Calculator calculator = new Calculator(); calculator.set

2021-04-25 19:39:56 334

原创 pandas使用记录

pandas使用记录apply函数apply返回多列，并赋值tqdm Apply 看运行进度多进程-apply函数groupby函数获取groupby分组里最大值所在的行方法（效率较高）为了记录在使用pandas时，不常使用，但很重要的技巧apply函数apply返回多列，并赋值import pandas as pddf_tmp = pd.DataFrame([ {"a":"data1", "cnt":100},{"a":"data2", "cnt":200},])# df_tmp

2021-02-20 14:53:36 241

原创基于Pyspark的Pandas_udf使用方法

运行环境：Spark2.4.2python 3.6有一些关于spark df和pandas df的介绍，可以详细看基于Pyspark的Pandas_udf使用方法这里介绍我在使用过程中遇到的问题Pandas UDFspandas udf是用户定义的函数，是由spark用arrow传输数据，pandas去处理数据。我们可以使用pandas_udf作为decorator或者registor来定义一个pandas udf函数，不需要额外的配置。目前，pandas udf有三种类型：标量映射（Sca

2021-01-21 21:46:47 4644 5

原创 pyLDAvis基于gensim的LDA模型可视化遇到的问题

pyLDAvis基于gensim的LDA模型可视化遇到的问题使用下面代码将lda模型可视化结果保存为htmld = pyLDAvis.gensim.prepare(lda, corpus, dictionary)pyLDAvis.save_html(d, 'lda_topic20.html')问题：html文件打不开，为空白页原因：使用编辑器打开后发现有几个网页需要翻墙才可以https://cdn.rawgit.com/bmabey/pyLDAvis/files/ldavis.v1.0.0

2021-01-20 12:01:15 4788 18

原创 pyecharts自适应屏幕居中显示

pyecharts自适应屏幕居中显示pyecharts自适应屏幕居中显示解决方法参考pyecharts自适应屏幕居中显示pyecharts生成的html默认是靠左上显示的，使用的pyecharts版本是1.9.0。期望图像是居中显示！画图代码如下c = ( Graph() .add("Measure", nodes, links, categories, repulsion=4000, gravity=0.1) .set_global_opts(title_opts=opt

2020-12-26 17:29:35 4720 8

原创 BiLSTM_Attention中的Attention

网上都是如下的模型结构图从上图只能看出Attention层的位置是在BiLSTM的后面，从公式更直观一些：通过一个MLP获取隐含表示uit=tanh(Wwhit+bw)u_{it}=tanh(W_wh_{it}+b_w)uit=tanh(Wwhit+bw)其中hith_{it}hit为LSTM层的输出，这个全连接层结构Wwhit+bwW_wh_{it}+b_wWwhit+bw并不会改变其维度。矩阵表示为u=tanh(Wh+b)u=tanh(Wh+b)u=tanh(Wh+b)，其

2020-12-04 16:24:37 3090

原创 python的dataframe与mysql交互

安装相关包pip install -i https://mirrors.ustc.edu.cn/pypi/web/simple sqlalchemypip install -i https://mirrors.ustc.edu.cn/pypi/web/simple pymysqldataframe导入mysqlfrom sqlalchemy import create_engineengine = create_engine("mysql+pymysql://{}:{}@{}/{}?chars

2020-12-01 09:43:31 326

原创下载google drive文件代码

下载google drive的文件import requestsdef download_file_from_google_drive(id, destination): def get_confirm_token(response): for key, value in response.cookies.items(): if key.startswith('download_warning'): return valu

2020-11-30 11:35:05 868 1

原创算法题分类整理

算法刷题文章目录算法刷题栈在刷题的过程中，整理和分类算法相关题目。栈剑指 Offer 09. 用两个栈实现队列剑指 Offer 30. 包含min函数的栈思想：维护一个递减的栈来实现min方法剑指 Offer 59 - II. 队列的最大值这里使用的思想与上一题相同，但区别在于本题需要维护的是一个双向队列Deque，与Queue的区别是，它可以从两端删除或增加元素！这个双向队列Deque是从头向尾递减的，所以要注意从尾部开始比较！！！...

2020-10-25 18:02:02 215

原创 Java的marven工程读取resources文件，并打可执行的jar

Java的maven工程读取resources文件，并打可执行的jar文章目录Java的maven工程读取resources文件，并打可执行的jar如何读取resources文件maven如何打可执行的jar首先这是个maven工程，实现目标：如何读取resources文件如何打可执行的jar如何读取resources文件IDEA的maven工程没有resources文件，创建的方法见intelliJ idea新建maven项目没有resource文件夹。项目的结构如图所示：现在的目标

2020-10-23 19:33:16 334

原创快速开展工作-Linux配置Anaconda

快速开展工作-Linux配置Anaconda在一个新环境中，快速开展工作，记录如下配置。在实战应用过程中不断完善此文档：在一台linux服务器中，部署Anaconda，使用jupyter愉快的python编程。主要讲以下内容：安装anaconda环境配置jupyter远程登录python虚拟环境在线安装python包离线安装python包安装anaconda环境这个很简单，下载Anaconda，如Anaconda3-4.1.0-Linux-x86_64.sh。上传到Linux，进

2020-09-11 09:28:04 364

原创 CDH集群上运行pyspark代码之环境安装——CDH集群使用Parcel包配置Anaconda及提交pypark遇到的问题

CDH集群上运行pyspark代码之环境安装——CDH集群使用Parcel包配置Anaconda现场CDH集群的版本是5.12，操作系统CentOS 6.5，python是2.6.6。我至少需要python2.7+或python3.5+以上的环境，因此需要在CDH集群安装Anaconda。最终我希望利用Ananconda配置一个python2.7的环境。下载Parcel包从Anaconda官网下载Parcel包，这里下载的是Anaconda-4.2.0-el6.parcel，el6是操作系统的版本，

2020-08-27 10:03:05 584