自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 SQL窗口函数OVER用法整理

SQL窗口函数OVER用法整理OVER的定义OVER用于为行定义一个窗口,它对一组值进行操作,不需要使用GROUP BY子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。语法OVER ( [ PARTITION BY column ] [ ORDER BY culumn ] [ROWS|RANGE BETWEEN 边界规则1 and 边界规则2])PARTITION BY 子句进行分组;ORDER BY 子句进行排序;ROWS|RANGE 框架是对窗口进行进一步的分区,框架有两种

2022-02-22 20:45:29 19531

原创 数据预处理

训练数据预处理# -*- coding: utf-8 -*-# @Time : 2021/5/15 10:25 下午# @Author : jiangming# @FileName: data_preprocess.py# @Software: PyCharm# @Desc : 数据预处理,生成训练数据import datetimefrom pandas import DataFrameimport pandas as pdimport numpy as npfrom

2021-05-16 21:25:15 306

原创 Hive UDF函数编写

Hive UDF函数编写注意事项注意事项类必须要继承UDF,方法名称必须是evaluateimport org.apache.hadoop.hive.ql.exec.UDF;public class GcsGid extends UDF {public String evaluate(Double lat, Double lng, Integer layer) { Calculator calculator = new Calculator(); calculator.set

2021-04-25 19:39:56 287

原创 pandas使用记录

pandas使用记录apply函数apply返回多列,并赋值tqdm Apply 看运行进度多进程-apply函数groupby函数获取groupby分组里最大值所在的行方法(效率较高)为了记录在使用pandas时,不常使用,但很重要的技巧apply函数apply返回多列,并赋值import pandas as pddf_tmp = pd.DataFrame([ {"a":"data1", "cnt":100},{"a":"data2", "cnt":200},])# df_tmp

2021-02-20 14:53:36 167

原创 基于Pyspark的Pandas_udf使用方法

运行环境:Spark2.4.2python 3.6有一些关于spark df和pandas df的介绍,可以详细看基于Pyspark的Pandas_udf使用方法这里介绍我在使用过程中遇到的问题Pandas UDFspandas udf是用户定义的函数,是由spark用arrow传输数据,pandas去处理数据。我们可以使用pandas_udf作为decorator或者registor来定义一个pandas udf函数,不需要额外的配置。目前,pandas udf有三种类型:标量映射(Sca

2021-01-21 21:46:47 4347 5

原创 pyLDAvis基于gensim的LDA模型可视化遇到的问题

pyLDAvis基于gensim的LDA模型可视化遇到的问题使用下面代码将lda模型可视化结果保存为htmld = pyLDAvis.gensim.prepare(lda, corpus, dictionary)pyLDAvis.save_html(d, 'lda_topic20.html')问题:html文件打不开,为空白页原因:使用编辑器打开后发现有几个网页需要翻墙才可以https://cdn.rawgit.com/bmabey/pyLDAvis/files/ldavis.v1.0.0

2021-01-20 12:01:15 4537 18

原创 pyecharts自适应屏幕居中显示

pyecharts自适应屏幕居中显示pyecharts自适应屏幕居中显示解决方法参考pyecharts自适应屏幕居中显示pyecharts生成的html默认是靠左上显示的,使用的pyecharts版本是1.9.0。期望图像是居中显示!画图代码如下c = ( Graph() .add("Measure", nodes, links, categories, repulsion=4000, gravity=0.1) .set_global_opts(title_opts=opt

2020-12-26 17:29:35 4440 8

原创 BiLSTM_Attention中的Attention

网上都是如下的模型结构图从上图只能看出Attention层的位置是在BiLSTM的后面,从公式更直观一些:通过一个MLP获取隐含表示uit=tanh(Wwhit+bw)u_{it}=tanh(W_wh_{it}+b_w)uit​=tanh(Ww​hit​+bw​)其中hith_{it}hit​为LSTM层的输出,这个全连接层结构Wwhit+bwW_wh_{it}+b_wWw​hit​+bw​并不会改变其维度。矩阵表示为u=tanh(Wh+b)u=tanh(Wh+b)u=tanh(Wh+b),其

2020-12-04 16:24:37 2749

原创 python的dataframe与mysql交互

安装相关包pip install -i https://mirrors.ustc.edu.cn/pypi/web/simple sqlalchemypip install -i https://mirrors.ustc.edu.cn/pypi/web/simple pymysqldataframe导入mysqlfrom sqlalchemy import create_engineengine = create_engine("mysql+pymysql://{}:{}@{}/{}?chars

2020-12-01 09:43:31 290

原创 下载google drive文件代码

下载google drive的文件import requestsdef download_file_from_google_drive(id, destination): def get_confirm_token(response): for key, value in response.cookies.items(): if key.startswith('download_warning'): return valu

2020-11-30 11:35:05 757 1

原创 算法题分类整理

算法刷题文章目录算法刷题栈在刷题的过程中,整理和分类算法相关题目。栈剑指 Offer 09. 用两个栈实现队列剑指 Offer 30. 包含min函数的栈思想:维护一个递减的栈来实现min方法剑指 Offer 59 - II. 队列的最大值这里使用的思想与上一题相同,但区别在于本题需要维护的是一个双向队列Deque,与Queue的区别是,它可以从两端删除或增加元素!这个双向队列Deque是从头向尾递减的,所以要注意从尾部开始比较!!!...

2020-10-25 18:02:02 148

原创 Java的marven工程读取resources文件,并打可执行的jar

Java的maven工程读取resources文件,并打可执行的jar文章目录Java的maven工程读取resources文件,并打可执行的jar如何读取resources文件maven如何打可执行的jar首先这是个maven工程,实现目标:如何读取resources文件如何打可执行的jar如何读取resources文件IDEA的maven工程没有resources文件,创建的方法见intelliJ idea新建maven项目没有resource文件夹。项目的结构如图所示:现在的目标

2020-10-23 19:33:16 285

原创 快速开展工作-Linux配置Anaconda

快速开展工作-Linux配置Anaconda在一个新环境中,快速开展工作,记录如下配置。在实战应用过程中不断完善此文档:在一台linux服务器中,部署Anaconda,使用jupyter愉快的python编程。主要讲以下内容:安装anaconda环境配置jupyter远程登录python虚拟环境在线安装python包离线安装python包安装anaconda环境这个很简单,下载Anaconda,如Anaconda3-4.1.0-Linux-x86_64.sh。上传到Linux,进

2020-09-11 09:28:04 260

原创 CDH集群上运行pyspark代码之环境安装——CDH集群使用Parcel包配置Anaconda及提交pypark遇到的问题

CDH集群上运行pyspark代码之环境安装——CDH集群使用Parcel包配置Anaconda现场CDH集群的版本是5.12,操作系统CentOS 6.5,python是2.6.6。我至少需要python2.7+或python3.5+以上的环境,因此需要在CDH集群安装Anaconda。最终我希望利用Ananconda配置一个python2.7的环境。下载Parcel包从Anaconda官网下载Parcel包,这里下载的是Anaconda-4.2.0-el6.parcel,el6是操作系统的版本,

2020-08-27 10:03:05 536

原创 pandas常用操作修改为PySpark

pandas常用操作修改为PySparkSpark版本:2.1.0python: 2.7/3.5+这里主要将如何把pandas里groupby和apply操作转化为pyspark,并且apply中使用了自定义的复杂函数。定义pyspark_udaf.py文件:import loggingimport pandas as pdimport osimport sysfrom itertools import chainfrom functools import wrapsimport nu

2020-08-26 18:25:48 640

原创 CDH集群上运行pyspark代码之环境安装——windows配置单机spark环境

PySpark使用需求及使用过程背景介绍:针对某项业务需求,我在测试数据2000+条上实验,使用单机的python环境(Anaconda)中做了特征提取和模型的训练,效果还可以。我想在全量数据上做特征提取,然后用训练好的模型做预测看看效果。整个工作的流程大致如下:windows单机python环境下做实验,包括探索性数据分析、特征提取以及模型训练。在windows上配置与CDH集群版本相同的单机PySpark环境,并将python代码改为pyspark代码CDH集群环境的python环境配置,以

2020-08-25 18:16:50 618 1

原创 pip离线环境安装包/虚拟环境离线迁移

pip离线环境安装包pip离线环境安装包基础环境功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入pip离线环境安装包服务器没有镜像的情况下,offline机器安装python的包。背景:有一台可以联网的windows电脑

2020-08-07 15:25:57 2101

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除