自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(91)
  • 收藏
  • 关注

原创 macbook air(M1 2020)安装graphviz和python pip或conda 安装pygraphviz

能够在以下路径中找到graphviz文件:(/opt/homebrew/Cellar/graphviz)在网上了找了无数教程,试错了一天一夜,上面方式一把成功。

2024-01-28 10:29:54 326 1

原创 python redis连接池sub/pub断开连接问题

/如果在5秒内没有任何数据交互,则进行探测,缺省值:7200(s)int keepCount = 2;//探测重试的次数,全部超时则认定连接失效,缺省值:9(次)int keepInterval = 2;//探测时发探测包的时间间隔为2秒,缺省值:75(s)int keepAlive = 1;//开启keepalive属性,缺省值:0(关闭)单机redis服务器没有出现断开连接问题。云服务集群版本出现了。

2023-03-27 17:08:34 738 1

原创 正则做文本分类

正则做文本分类的优缺点

2023-01-18 17:20:13 251

原创 正则必须包含某几个词不要求顺序python

【代码】正则必须包含某几个词不要求顺序python。

2022-12-28 10:24:33 606

原创 java中jasypt包的PBEWithMD5AndDES加解密算法(可java & python双向加解密)

java中jasypt包的PBEWithMD5AndDES加解密算法(可java & python双向加解密)

2022-12-24 23:06:42 1341

原创 python 复现java中jasypt包的 PBEWITHSHA256AND256BITAES-CBC-BC加解密算法(可java & python双向加解密)

依赖包Crypto的安装: pip3 install pycryptodome。运行环境:python 3.6。

2022-12-24 22:03:36 558

原创 accelerate加速器指定GPU卡号进行训练多个进程

假如你的服务器有 4 GPUs.首先,确保安装了accelerate命令。没有安装的话执行pip installaccelerate第二,确保CUDA_VISIBLE_DEVICES命令存在。第三,配置一个默认的运行配置文件 default_config.yamlcompute_environment: LOCAL_MACHINEdistributed_type: MULTI_GPUfp16: falsemachine_rank: 0main_process_ip: nu.

2022-05-24 21:35:20 13287

原创 【无标题】

思路如果再定义一个新的链表,实现链表元素的反转,其实这是对内存空间的浪费。其实只需要改变链表的next指针的指向,直接将链表反转 ,而不用重新定义一个新的链表,如图所示:之前链表的头节点是元素1, 反转之后头结点就是元素5 ,这里并没有添加或者删除节点,仅仅是改表next指针的方向。那么接下来看一看是如何反转呢?我们拿有示例中的链表来举例,如动画所示:首先定义一个cur指针,指向头结点,再定义一个pre指针,初始化为null。然后就要开始反转了,首先要把 cur->next

2022-05-24 21:33:43 72

原创 virtualenv简单3步创建python虚拟环境

简单几步完成虚拟环境创建1.进入你的python安装目录的bin目录,这个目录下需要能用python命令激活你的python(建议直接安装miniconda)cd /mypython3/bin2.安装virtualenv包pip install virtualenv# 或者使用 pip3# pip3 install virtualenv3.创建自己的python环境(-p 后面是母python的目录)./virtualenv -p /mypython3/bin/python3 myenv

2022-05-09 10:24:14 1261

原创 Latex 笔记

Latex强制图片位置常用选项[htbp]是浮动格式:『h』当前位置。将图形放置在正文文本中给出该图形环境的地方。如果本页所剩的页面不够,这一参数将不起作用。『t』顶部。将图形放置在页面的顶部。『b』底部。将图形放置在页面的底部。『p』浮动页。将图形放置在一只允许有浮动对象的页面上。一般使用[htb]这样的组合,只用[h]是没有用的。这样组合的意思就是latex会尽量满足排在前面的浮动格式,就是h-t-b这个顺序,让排版的效果尽量好。!h 只是试图放在当前位置。如果页面剩下的部分放..

2022-03-26 16:14:50 303

原创 求图中两个节点的最短路径或最短距离

已知图的所有节点和边连接关系,如下图,求指定两节点的最短路径和距离import networkx as nximport pylabnodes = [('B','D'), ('D','E'), ('D','A'), ('E','A'), ('E','C'), ('A','C')]graph = nx.Graph(nodes)nx.draw(graph, node_color = 'red', with_labels = True)dist = nx.shortest_path(graph

2022-03-02 17:42:33 1444

原创 Transformer一图总览(方便记忆和查阅)

图片来自论文Yi Tay etc.的《Efficient Transformers: A Survey》Transformer architectureTransformer architecture 参考论文Vaswani et al., 2017。总览Transformers是一种多层结构,由Transformer block相互堆叠而成。Transformer block的组成一个多头自注意机制(multi-head self-attention mechanism)一个位置前馈网

2022-02-21 14:21:10 1505

原创 5大常数是:0,1,π,e,i

数学中5大常数是:0,1,π,e,i将他们组成一个公式:e^(πi)+1=0这个恒等式就是欧拉公式,它将数学里最重要的几个数字联系到了一起:两个超越数:自然对数的底e,圆周率π两个单位:虚数单位i和自然数的单位1数学里常见的0扩展资料  圆周率π≈3.141592653589793不管圆有多大,它的周长与直径的比值总是一个固定的数。我们就把这个数叫做圆周率,用希腊字母π来表示。π是数学中最基本、最重要、最神奇的常数之一,它常常出现在一些与几何毫无关系的场合中。例如,任意取出两个正整数,则它

2022-01-29 08:22:50 4913

转载 pytorch 之 torch.nn.functional.LayerNorm()

torch.nn.LayerNorm( normalized_shape: Union[int, List[int], torch.Size], eps: float = 1e-05, elementwise_affine: bool = True)————————————————LayerNorm前向传播(以normalized_shape为一个int举例)如下所示:输入数据的shape是(3, 4)此时normalized_shape...

2021-12-25 09:10:31 1176

转载 Beam Search(集束搜索/束搜索)

作者:Fyuocuk链接:https://www.zhihu.com/question/54356960/answer/293804923来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。首先需要确定一个`Beam Size`,这里设置为2,意思是每个`word`后面的分支考虑概率最大的那两个`words`。比如下面的例子,从下往上首先分成A、B两个words,然后继续往上传播,句子变成是AA/AB/BA/BB这四种情况(绿色虚线)。考虑到`Beam Size=2`.

2021-12-05 22:17:22 363

转载 ​viterbi (维特比)算法​

作者:路生链接:https://www.zhihu.com/question/20136144/answer/763021768来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。如下图,假如你从S和E之间找一条最短的路径,除了遍历完所有路径,还有什么更好的方法?viterbi维特比算法解决的是篱笆型的图的最短路径问题,图的节点按列组织,每列的节点数量可以不一样,每一列的节点只能和相邻列的节点相连,不能跨列相连,节点之间有着不同的距离,距离的值就不在图上一一标.

2021-12-05 22:11:08 250

转载 bert的细节整理

转自https://www.jianshu.com/p/2daf69f8408f本文是对bert的细节进行整理,分成3个部分的问题:目录输入与transformer相比输入有什么不同? bert的3种embedding分别有什么意义,如果实现的? Bert 的三个 Embedding 为什么可以进行相加? word piece 怎么做的? Bert的长度限制为512,如何处理长文本?模型结构transformer是如何被使用的? 如何体现双向的? 为什么要 mask?怎么.

2021-12-02 20:48:34 485

原创 2020年中国人口出生率为8.52‰,首次跌破10‰,创下1978来新低

最新发布《中国统计年鉴2021》显示,2020年中国全国人口出生率为8.52‰,首次跌破10‰,创下了1978来的新低。同期中国人口自然增长率仅为1.45‰,同样创下1978年以来的历史新低。根据年鉴,2020年相比2019年,中国人口净增204万人,而前一年增量还高达467万,2018年增加了530万人。从现有的情况来看,人口总量增加的动力缺乏,越来越难,出生人口越来越少。发展的趋势,就是越来越接近于出生人口与死亡人口相交叉的边缘。和我之前整理的历年人口以及趋势预测不谋而合:中国历年人

2021-11-22 10:34:13 1838

转载 virtualenv 创建虚拟环境

主要用于在一台电脑上需要安装不同版本的python虚拟环境来做项目, virtualenv就是用来为一个项目创建一套可以隔离的Python运行环境。 1 2 3 4 pip install virtualenv # 或者使用 pip3 pip3 install virtualenv 创建过程 创建目录 Windows系统的话, 新建一个空的文件目录, linux的话 mkdir XXX_project..

2021-11-02 17:06:09 702

转载 Excel 新增对话式智能分析功能

转自:智能数据分析技术,解锁Excel“对话”新功能Excel 新增对话式智能分析功能作为人们日常办公最重要的工具之一,Excel 功能强大而多样,但许多用户对 Excel 的使用停留在基础的表格制作与存储上,数据分析功能仍然具备一定的专业门槛。基于数据智能领域丰富的研究成果,微软亚洲研究院开发了一个智能数据分析算法 AnnaParser,来提高 Excel 的智能数据分析能力。为了解决新表格实体识别的问题,AnnaParser 首先引入了一个数据抽象模块(data abstraction)来识

2021-10-12 20:55:33 687 2

原创 2021你还在手写SQL吗?万字综述Text to SQL技术

Text to SQL综述一、背景二、任务介绍三、数据集四、方法4.1 基于模板和规则4.2 基于Seq2Seq框架4.2.1 编码方法4.2.1.1 Table-aware4.2.1.2 Anonymous Encoding4.2.1.3 GNN4.2.1.4 Relation-Aware Self-Attention4.2.1.5 表格预训练4.2.2 解码方法4.2.2.1 pointer network4.2.2.2 Reinforcement Learn4.2.2.3 Sketch and Mul

2021-09-02 11:35:28 3423 1

原创 Text2SQL论文-12:GRAPPA: Grammar-Augmented Pre-Training for Table Semantic Parsing

ICLR 2021https://openreview.net/forum?id=kyaIeYj4zZ or http://arxiv.org/abs/2009.13845v1文章解读参考:https://blog.csdn.net/qq_42341984/article/details/115734395

2021-09-01 11:35:30 231 1

原创 Text2SQL论文-11:Data-Anonymous Encoding for Text-to-SQL Generation

在文本到SQL的生成中,输入话语通常包含大量与表中的列名或单元格相关的标记,称为表相关标记,将输入语句中的标记映射到SQL查询中的常量叫做词汇问题。词汇问题可以表述为一个顺序标记问题,称为匿名化,其中输入话语中的每个标记都将被标记为与列名、单元格或无相关。这些与表相关的标记对于下游的神经语义解析器来说是很麻烦的,因为它带来了复杂的语义。如果能在神经语义解析之前减少词法问题,训练难度会大大减轻。原因有两个:第一,通过在神经语义分析器之前匿名化输入话语中的表相关标记,我们可以隐藏表相关标..

2021-08-18 19:29:33 314

转载 Text2SQL论文-10:Model-based Interactive Semantic Parsing: Text-to-SQL

原文链接:https://blog.csdn.net/Joycezzz/article/details/109539389一、摘要&总结&未来工作1 摘要设计一个基于模型的智能代理-- decides whether and where human intervention is needed预测语义解析,确定是否需要人工干预以及在何处需要人工干预,并以自然语言生成一个澄清问题。代理的关键部分是一个世界模型:它接受一个感知(一个初始问题或来自用户的后续反馈)并过渡到一个新

2021-08-18 18:17:18 320

转载 Text2SQL论文-09:Semantic Parsing with Syntax- and Table-Aware SQL Generation

转自:https://www.sohu.com/a/241511850_657157文章:Semantic Parsing with Syntax- and Table-Aware SQL Generation作者:Yibo Sun, Duyu Tang, Nan Duan, Jianshu Ji , Guihong Cao , Xiaocheng Feng , Bing Qin, Ting Liu, Ming Zhou会议:ACL 2018本文中,我们以结构化查询语句为例介绍在语义解析

2021-08-18 17:26:44 397

原创 Text2SQL论文-08:Coarse-to-Fine Decoding for Neural Semantic Parsing

semantic parsing是将一句话映射为结构化的表示。作者采用由粗到细的两阶段生成方法,先生成忽略细节的表示,在将细节填充到之前的表示中。用两级encoder->decoder来实现。第一级decoder出sketch将sketch再编码联合input encoder一起再输出具体的variable细节。优点是分解问题。比一步生成,相对简单。...

2021-08-18 16:40:03 295

原创 Text2SQL论文-07:Robust Text-to-SQL Generation with Execution-Guided Decoding

对于NL2SQL任务提出了一个新的机制->execution guidance :对部分生成的sql执行情况为条件,在解码过程中检测并排除故障程序,从而对整个对于生成的sql语句进行纠正。 该机制可与任何自回归生成模型一起使用.基于S2S结构的attention 和 copy机制的生成会fail at generatingsyntactically validqueries 作者的核心思想在于这种sql语句一部分生成以后就可以执行,执行的结果反过来可以引导生成过程示例执行opp...

2021-08-18 15:57:33 417

转载 Text2SQL论文-06:SQLNet Generating Structured Queries From Natural Language Without Reinforcement Learn

https://zhuanlan.zhihu.com/p/71955744

2021-08-18 15:41:39 320

转载 Text2SQL论文-05:TABERT: Pretraining for Joint Understanding of Textual and Tabular Data

转自:https://blog.csdn.net/weixin_47474348/article/details/115938146AbstractBert是对纯文本做的预处理语言模型,而现有的很多数据集是半结构化的,如表格等等。所以文章提出了TaBert模型,这个模型能够学习如何表达文本语句和半结构化的表格。并在WikiTableQuestion和Spider上取得良好的效果。Introduction目前已经出现了一些基于大规模数据预训练的语言模型Bert了,但是对于一些结构化的数

2021-08-18 14:21:05 591

转载 Text2SQL论文-04:SyntaxSQLNet Syntax Tree Networks for Complex and Cross-Domain Text-to-SQL Task

转自:https://zhuanlan.zhihu.com/p/115183832SyntaxSQLNet是第一个专门针对Spider数据集的算法,论文发布在arXiv的时间为2018年10月。这个算法在Spider任务上exact matching的准确率为19.7%,进行数据增强后准确率为27.2%。以下对SyntaxSQLNet进行介绍,参考资料为论文原文[1]及其开源代码[2]。1. 提出问题之前的Text-to-SQL数据集,有的在任务定义上存在不足(如ATIS、GeoQuer

2021-08-18 10:54:08 439

转载 Text2SQL论文-03:TypeSQL Knowledge-based Type-Aware Neural Text-to-SQL Generation

原文链接:https://blog.csdn.net/lizhilikjgcisdgf/article/details/108412794在本文中,我们提出了一种新颖的方法TYPESQL,它将此问题视为插槽填充任务。 另外,TYPESQL利用类型信息更好地理解自然语言问题中的稀有实体和数字.1.输入预处理-类型识别:识别的类型包括数字类(整数、浮点、日期、年份),实体类(人名、地名、国家、结构、体育,基于Freebase的数据利用grams和关键词查询)、表的列明。参考图中最下面的type,每个

2021-08-18 10:44:28 436

转载 Text2SQL论文-02:Abstract Syntax Networks for Code Generation and Semantic Parsing

转载于https://zhuanlan.zhihu.com/p/79486610这篇文章主要介绍的一种新颖的neural semantic parsing的方法来做code generation,这个特殊设计网络的名字叫Abstract Syntax Network(ASN),是伯克利在2017年的工作。其中有几个亮点:使用了神经网络的方式生成code 使用了一种语法树来限制神经网络只能生成有效的输出。这种语法树是由一种叫Abstract Syntax Description Language(A

2021-08-18 10:14:53 500

转载 李宏毅-人类语言处理-成分句法分析

前言:NLP 任务中,句法分析有两种,一种是成分句法分析,另一种是依存句法分析。句法分析不适用于之前的 NLP 任务分类体系。它的输出形式相对来说会比较不一样。成分句法分析简单来说就是找到一个句子的组成成分。我们要怎样知道一个单位是不是成分呢。这需要语言学上的方法来鉴定。一般是我们凭着直觉判断的主谓宾。每一个成分都会有一个标签,比如 deep learning 的标签是 NP,very powerful 的标签是 ADJP。成分句法分析的标签类型还是比较多的。它的组成更倾向于是短语级

2021-08-06 21:00:36 869

原创 text2sql论文-01:SEQ2SQL: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE USING REINFORCEMENT LEARN

SEQ2SQL:使用强化学习将自然语言转为结构化查询语句基本信息标题:SEQ2SQL: GENERATING STRUCTURED QUERIES FROM NATURAL LANGUAGE USING REINFORCEMENT LEARNING会议:CoRR2017.作者:Victor Zhong, Caiming Xiong, Richard Socher链接:https://arxiv.org/abs/1709.00103摘要提出一个深层神经网络模型,用于生成sql:该模型生成一系列

2021-07-23 18:24:52 1090

原创 Text to SQL 论文汇总(NL2SQL/TableQA)

Seq2sql: Generating structured queries from natural language using reinforcement learning会议:CoRR2017.作者:Victor Zhong, Caiming Xiong, Richard Socher链接:https://arxiv.org/abs/1709.00103Abstract syntax networks for code generation and semantic parsing会议.

2021-07-16 18:24:54 1412

原创 自然语言处理研究员(实习)

自然语言处理研究员(实习)工作地点:深圳工作职责:为构建高水准的智能人机对话机器人平台提供科研与算法支持,开展深度语义理解、文本生成、对话系统等方向的基础研究工作,撰写高质量的科研论文。研究方向:• 多轮任务型对话管理 (Dialog Management) 系统研究及开发• 基于对话上下文的语言理解(如指代消歧、省略补全等等)• 小样本、噪声样本下的自然语言理解• 结构化知识智能问答系统(KBQA/TableQA)• 半结构化/非结构化知识智能问答系统(KBQA/TableQA)• 自

2021-07-16 16:00:32 330

原创 linux 安装任意多的python版本且不冲突

linux 安装任意多的python版本且不冲突查看历史Python并记录下载Anaconda安装自己的python注释掉conda修改的.bashrc修改python命令链接大功告成参考博客如下教程都是基于Anaconda版本的Python进行,官方Python请自行实验查看历史Python并记录直接输入python和python3显示使用的是anaconda自带的python环境,且都是3.6下载Anaconda完整版建议清华镜像,下载速度快https://mirrors.tuna.ts

2021-07-13 17:59:12 435

原创 清楚工作的核心内容

### 为什么要做核心内容?抓住核心内容,才能在有限的时间分清轻重缓急,才能价值最大化### 什么是核心内容?1.是否能直接提升业务业绩。优先做提升大的事,其他事情往后放2.是否能体现自己的价值,如果任何人都能做,那价值很低3.长期价值,如果只会产生短期价值那就快速解决,对长期价值的事才投入更多时间去做好4.半周期要长,多选择对自己有长期积累和增长的事情去做。...

2021-07-02 16:14:58 143

原创 岳阳长沙深圳市区中考和高考难度对比

对比了一下岳阳和深圳:岳阳市一中上985的比例大概30%深圳4大名校平均985录取率30%同样中考考上岳阳市一中的录取率是4%考上深圳4大的录取率也是3.7%

2021-06-29 19:39:41 3722 1

原创 tensorflow serving压测

GPU部署v100显卡10核CPUelectra small 90rpsGPU占用率25%CPU占用200%CPU部署67rpsCPU占用1000%结论:1.tf能用完所有CPU核心,即才用了多进程部署,并行2.tf对GPU是串行的,没有用完所有GPU3.对于矩阵计算规模小,即小模型的部署CPU更合适,CPU能实现对大规模请求的并行,易高并发,但无法对矩阵计算并行,单次请求时间不会减小4.对于大型矩阵计算的大模型,GPU对矩阵并行 ,一次推理速度能快很多,但无法对多次请求进行并行,

2021-05-25 20:31:17 497 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除