PaperAgent-CSDN博客

原创 BERT轻量化探索—模型裁剪（BERT Pruning）—层数裁剪

继BERT维度剪枝之后，尝试了BERT层数暴力裁剪，直接剪掉若干层。试验结果：结论：训练提升40%左右、效果下降1.2%，推断速度提升50%。代码参考：最简单的模型轻量化方法：20行代码为BERT剪枝 https://cloud.tencent.com/developer/article/1542897，但是进行了一些调整。1）首先，将谷歌pretr...

2019-12-19 10:55:44 4521 4

原创 BERT轻量化探索—模型剪枝（BERT Pruning）—Rasa维度剪枝

由于BERT参数众多，模型庞大，训练与推理速度较慢，在一些实时性要求较高应用场景无法满足需求，最近开始探索BERT轻量化部署BERT轻量化的方式：低精度量化。在模型训练和推理中使用低精度（FP16甚至INT8、二值网络）表示取代原有精度（FP32）表示。模型裁剪和剪枝。减少模型层数和参数规模。模型蒸馏。通过知识蒸馏方法[22]基于原始BERT模型蒸馏出符合上线要求的小模型...

2019-12-19 10:14:04 3450 3

原创问答QA（二）基于BERT的知识库问答实战

GitHub：https://github.com/jkszw2014/bert-kbqa-NLPCC2017一、问题描述本篇知识问答实战来源NLPCC2017的Task5：Open Domain Question Answering；其包含 14,609 个问答对的训练集和包含 9870 个问答对的测试集。并提供一个知识库，包含 6,502,738 个实体、 587,875 个属性以及...

2019-03-09 00:12:35 23969 41

原创 KnowledgeNavigator：利用大型语言模型在知识图谱进行增强推理

在问题分析阶段，该框架预测给定问题所需的推理跳数，并生成类似的问题，以增强推理逻辑挖掘。在知识检索阶段，框架根据给定的问题和LLM指导，从知识图谱中迭代地检索和过滤相关知识。最后，在推理阶段，将检索到的知识转化为有效的提示，以增强LLM的推理能力。知识导航器在KGQA任务上表现优秀，与完全监督模型相当，并优于使用LLM进行检索和推理的模型。在MetaQA和WebQSP数据集上，知识导航器在多跳知识图谱推理任务中，使用LLama-2-70B-Chat和ChatGPT作为LLM，实现了有效的知识图谱推理。

2023-12-29 16:09:35 1694

原创揭秘RecRanker：用大型语言模型打造Top-k推荐排序神器

每天一篇大模型（LLM）文章来锻炼我们的思维，简单的例子，不简单的方法，提升自己。

2023-12-29 15:55:22 1415

原创 TinyGPT-V：小而强大，轻量级骨架打造高效多模态大语言模型！

该文件介绍了TinyGPT-V，这是一种高效的多模态大语言模型(MLLM)，它将小语言主干与预训练的视觉模块相结合。TinyGPT-V模型在视觉问答任务中表现良好，与具有130亿参数的模型相比，TinyGPT-V模型在参数规模上较小，但仍然具有竞争力。在Visual Spatial Reasoning（VSR）零样本任务中，TinyGPT-V模型取得了最高的53.2%的分数，而在其他任务中，TinyGPT-V模型的表现也接近或超过其他大型模型。它结合了一个小的语言骨干和预训练的视觉模块。

2023-12-29 15:45:46 1408

原创 Python连接Kafka问题汇总

1、NoBrokersAvailable: NoBrokersAvailable-Kafka Error解决方法：连接时指定版本producer = KafkaProducer(bootstrap_servers=['localhost:9092'],api_version=(0,1,0))参考链接：https://stackoverflow.com/questions/35689...

2019-12-26 15:24:26 3195

原创 hive任务RMContainerAllocator: REDUCE capability required is more than the supported max container

hive任务执行时：FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskHadoop job information for Stage-1: number of mappers: 1; number of reducers: 12019-12-17 09:49:08...

2019-12-17 16:52:04 1154

转载在使用pandas 0.23.4对日期进行分组排序时报错

date_df["rank_num"] = date_df.groupby("issuer_id").report_date.agg("rank", **{"ascending": 1, "method": "min"}) File "D:\python_virtualenv\es_env\lib\site-packages\pandas\core\groupby\groupby.py",...

2019-11-06 20:29:51 1143

原创 Python3读取Hbase包hbase-thrift异常处理

python连接hbase需要用到hbase-thirft类库，但是hbase-thirft只在python2下能正常使用，如果在python3下，会报错，主要有一下几个错误： except IOError, io: invalid syntax ModuleNotFoundError: No module named 'ttypes' NameError:name ...

2019-09-30 17:50:20 1268 6

原创 pandas read_csv 错误： Buffer overflow caught - possible malformed input file.

一、错误现象 File "/root/anaconda2/lib/python2.7/site-packages/pandas/io/parsers.py", line 1213, in read data = self._reader.read(nrows) File "pandas/parser.pyx", line 766, in pandas.parser.TextRe...

2019-04-23 13:58:11 5593 1

原创 python3导入模块的方法PYTHONPAT

1、相同项目中导入模块绝对路径导入load_news.pyfrom log.global_config import *或from ..global_config import *项目结构获取相对和路径名称../ 表示当前文件所在的目录的上一级目录 ./ 表示当前文件所在的目录(可以省略) / 表示当前站点的根目录(域名映射的硬盘目录) im...

2019-03-08 22:10:43 464

原创 python查看已安装模块使用汇总

命令行pydoc查看>>> test:~/home$ pydoc modules #查看所有模块Please wait a moment while I gather a list of all available modules...ANSI aptsources htmlentitydefs ...

2019-03-01 19:08:10 3279

原创 python时间函数

1、获取当前时间>>> import datetime>>> datetime.datetime.now()datetime.datetime(2019, 2, 21, 16, 49, 9, 983020)>>>输出结果从总到右分别为Year、Month、Day、Hour、Minute、Second，最后一个MicroSecond...

2019-02-21 17:00:13 495

原创 SecureCRT使用BackSpace与python shell 方向键乱码

1. 解决backspace和delete的乱码：在securecrt的工具栏–>options–>session–>terminal–>emulation–>mapped keys 页面，勾选“other mappings”的两个选项，如下图： 2、python shell 方向键乱码[root@bigdata003 ~]# pythonPyth...

2019-02-20 19:55:16 566

原创 Linux常用命令

1、查看机器ip内网ipinet addr:10.95.114.92[work@cp01-becqa-billing-4.epc.baidu.com: ~]$ ifconfigeth0 Link encap:Ethernet HWaddr FA:16:3E:E4:23:68 inet addr:10.95.114.92 Bcast:10.95.11...

2019-02-20 19:50:11 317

原创 Linux进程监控

1、ps命令使用ps -auxUSER 进程的用户； PID 进程的ID； %CPU 进程占用的CPU百分比； %MEM 占用内存的百分比； VSZ 该进程使用的虚拟内存量（KB）； RSS 该进程占用的固定内存量（KB）； TTY 该进程在哪个终端上运行（登陆者的终端位置），若与终端无关，则显示（？）。...

2019-02-19 16:48:26 1199

转载【转】【Tensorflow】tf.app.run()与命令行参数解析

转载于 http://blog.csdn.net/TwT520Ly https://blog.csdn.net/TwT520Ly/article/details/79759448、tf.app.run()首先给出一段常见的代码：if __name__ == '__main__': tf.app.run()找到Tensorflow中关于上述函数run()的源码：def...

2019-02-01 10:56:16 544

原创实体识别（一）几种NER深度学习模型效果对比IDCNN+BERT+BiLISTM+CRF

纯实现上对比几种NER深度学习模型效果（有不严谨的地方：数据集、模型规模等），代码来源于Github上大神的贡献。实现上有三种模型对比模型 IDCNN+CRF BiLSTM+CRF(1) BiLSTM+CRF(2) BERT+BiLSTM+CRF 参考文献文献[3] 文献[3] 文献[4] 文献[2] 数据集 100w字符...

2019-01-31 16:34:52 15292 20

原创问答QA（一）综述

声明：本文是综合网上问答系统介绍，做的总结，如有侵权，请联系处理，谢谢。一、问答系统架构 1.1、问题分析模块负责对用户的提问进行处理；生成查询关键词（提问关键词，扩展关键词，...）；确定提问答案类型（PER, LOC, ORG, TIM, NUM, ...）以及提问的句法、命名实体、语义表示等等。1.2、问题回答模块依据不同的数据类型，进...

2019-01-25 12:20:08 9987 1

原创知识图谱（四）：Neo4j查询语法

一、基础语法1、节点基础操作节点创建 Cypher命令：节点模式的构成：(Variable:Lable1:Lable2{Key1:Value1,Key2,Value2})，实际上，每个节点都有一个整数ID，在创建新的节点时，Neo4j自动为节点设置ID值，在整个数据库中，节点的ID值是递增的和唯一的。下面的Cypher查询创建一个节点，标签是Industry，具有两个属性...

2019-01-23 09:49:34 25379 6

原创知识图谱（三）：Neo4j数据导入与多库切换

一、Neo4j数据导入1、import导入csvimport语法neo4j-admin import [--mode=csv] [--database=<name>] [--additional-config=<config-file-path>] [--re...

2019-01-14 20:08:31 6602

原创 Pandas中DataFrame关联操作（concat、append、merge、join）

结论：concat与append是属于拼接操作 concat简略形式,只能在axis=0上进行合并 merge与join属于关联操作，类似于sql中的join操作 merge可以实现列与索引上关联操作，join只能索引上关联操作关联操作基本上用merge就可以了一、Concat操作函数：pd.concat(objs, axis=0, join='outer', join_...

2019-01-14 20:05:42 15685

原创 Pandas分组与排序

一、pandas分组1、分组运算过程：split->apply->combine 拆分：进行分组的根据应用：每个分组运行的计算规则合并：把每个分组的计算结果合并起来 2、分组函数DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_ke...

2019-01-11 15:21:17 6737 1

原创 flume实践（二）：TAILDIR多文件采集到对应HDFS文件

需求：不同服务产生不同的日志文件，例如： server/test_a_20181217.log server/test_b_20181217.log；日志是不断写入的 flume采集日志到对应HDFS文件夹里，即： server/test_a_20181217.log ——> /user/hive/logs/ymd=20181217/testa/xxxx.txt serv...

2018-12-17 23:27:55 1397

原创 flume实践（一）：配置+单文件追加采集

一、flume采集到HDFS1、flume安装准备 jdk1.8安装： https://www.cnblogs.com/zeze/p/5902124.html java -version 2、flume安装下载 wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.8.0/apache-flume-1.8....

2018-12-17 22:34:42 758

原创 Spark On Yarn任务超时监控-Shell

最近在用spark跑任务，发现有些任务实际已经执行完成，但是就是占用资源，结束不了，用shell写了个yarn上application耗时监控脚本，超时自动杀掉。#!/bin/bash#current_time=`date +'%Y-%m-%d %H:%M:%S'`current_time_temp=`date +'%s%N'`current_time=$[$current_ti...

2018-11-21 13:34:19 2508

原创 Tensorflow学习笔记（一）--变量作用域与模型加载

1、变量作用域机制主要由两个函数实现：tf.get_variable(<name>, <shape>, <initializer>)tf.variable_scope(<scope_name>)2、常用的initializer有tf.constant_initializer(value) # 初始化一个常量值,tf.random_...

2018-10-08 15:36:26 485

原创 Impala（四）：Python3.6连接Impala的No module named _ssl

1、问题描述： Python3.6连接Impala的No module named _sslPython2是没有这个问题的>>> from impala.dbapi import connectTraceback (most recent call last):File "<stdin>", line 1, in <module>File ...

2018-09-30 10:59:11 6627 4

原创关键词（一）jieba词性标注与分词结果不一致

1、先描述下现象>>> aa='北京时间月日晚刘强东的刑辩律师在接受澎湃新闻记者电话采访时表示刘强东涉嫌强奸一案中的指控与证据是有出入的一旦调查结束证据将会披露给公众证明他是无罪的'=======过滤词性，能识别“刘强东”>>> ' '.join([k for k,w in analyse.extract_tags(aa,topK=2000,...

2018-09-27 09:18:01 3068

转载产品经理需要了解的算法——热度算法和个性化推荐

本文系转载，如有不妥之处，欢迎随时留言沟通交流，谢谢~https://36kr.com/p/5084292.html1. 算法的发展阶段个性化推荐不是产品首次发布时就能带的，无论是基于用户行为的个性化，还是基于内容相似度的个性化，都建立在大量的用户数和内容的基础上。产品发布之初，一般两边的数据都有残缺，因此个性化推荐也无法开展。所以在产品发展的初期，推荐内容一般采用更加聚合的“热度...

2018-09-19 17:07:07 631

原创 Impala（三）： Python Impala Encountered: STRING LITERAL

记录一个坑，python连Impala，插入数据到Kudu，会有特殊字符问题，冒号，涉及到时间格式与ip地址等场景>>> >>>from impala.dbapi import connect>>> >>>host='xx.xx.xx.xx'>>> >>&

2018-09-13 19:53:12 3343

转载【转】推荐系统算法总结（三）——FM与DNN DeepFM

来源：https://blog.csdn.net/qq_23269761/article/details/81366939，如有不妥，请随时联系沟通，谢谢~0.疯狂安利一个博客FM的前世今生： https://tracholar.github.io/machine-learning/2017/03/10/factorization-machine.html#%E7%BB%BC%E8%BF%...

2018-08-30 15:04:09 2459

转载【转】推荐系统算法总结（二）——协同过滤(CF) MF FM FFM

来源：未知，如有不妥，请随时联系沟通，谢谢~1.协同过滤（CF）【基于内存的协同过滤】优点：简单，可解释缺点：在稀疏情况下无法工作所以对于使用userCF的系统，需要解决用户冷启动问题和如何让一个新物品被第一个用户发现对于只用itemCF的系统，需要解决物品冷启动问题如何更新推荐系统呢，答案就是离线更新用户相似度矩阵和物品相似度矩阵【不断删除离开的用户/物品，加入新来的用...

2018-08-30 14:57:28 2546

转载【转】概念主题模型简记

来源：https://blog.csdn.net/lu597203933/article/details/45933761概念主题模型(PTM, probabilitytopical model)在自然语言处理(NLP,natural language processing)中有着重要的应用。主要包括以下几个模型：LSA(latentsemantic analysis)、 PLSA(proba...

2018-08-24 16:28:18 613

转载【转】Spark MLlib协同过滤之交替最小二乘法ALS原理与实践

来源： https://blog.csdn.net/L_15156024189/article/details/81712519请先阅读leboop发布的博文《Apache Mahout之协同过滤原理与实践》。基于用户和物品的协同过滤推荐都是建立在一个用户-物品评分矩阵（user-item-score）展开的，其本质是利用现有数据填充矩阵的缺失项（missing entr...

2018-08-24 16:07:21 969

转载【转】推荐系统算法总结（一）

来源：https://blog.csdn.net/eouaq448466/article/details/54772890推荐算法具有非常多的应用场景和商业价值，因此对推荐算法值得好好研究。推荐算法种类很多，但是目前应用最广泛的应该是协同过滤类别的推荐算法，本文就对协同过滤类别的推荐算法做一个概括总结，后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述　　　　推荐算法是...

2018-08-24 15:56:52 3614

原创 Pandas的DataFrame教程——指定位置增加删除一行一列

1、删除一行、一列>>> df A B C D0 1 3 3 41 5 6 7 82 1 1 1 13 2 3 2 3#删除A列，不改变原来的data数据，返回删除后的新表data_2。axis为1表示删除列，0表示删除行。inplace为True表示直接对原表修改。>>> data_2 = df...

2018-08-03 11:10:02 84585 11

原创 Pandas的DataFrame教程

1、DF创建>>> import pandas as pd>>> val = [[1,3,3,4],[5,6,7,8],[1,1,1,1],[2,3,2,3]]>>> cols = ['A','B','C','D']>>> indx= ['i1','i2','i3','i4']>>> d

2018-08-02 14:58:06 916

原创 Impala（二）Impala负载均衡

如有不妥之处，欢迎随时留言沟通交流，谢谢~Impala分为是三个组件，statestored/catalogd和impalad，其中statestored和catalogd是单点的，没有高可用的需求，因为这两个实例是无状态的，本身不存储任何数据，例如catalogd的数据存储在第三方数据库(例如mysql中)，statestore的数据全都存储在内存中，可以通过简单的主备的方式来实现高可用，本...

2018-07-25 20:22:00 1135