人工智能机器学习
文章平均质量分 92
weixin_42001089
算法让生活更美好
展开
-
怎么更好的训练一个会数学推理的LLM大模型呢?
训练一个更擅长推理的大模型原创 2023-09-16 18:09:03 · 716 阅读 · 0 评论 -
预训练模型的多任务主动学习
预训练模型的多任务主动学习,快来看看吧原创 2022-08-13 14:47:52 · 961 阅读 · 0 评论 -
论点挖掘小技巧
前言今天给大家介绍一个有意思的NLP任务:观点挖掘即Argument Mining ,其目的是要挖掘人的观点,应用场景也比较广泛。如果从大的技术选型角度看,Argument Mining基本上属于实体关系抽取,即要完成两个基本任务:(1)观点抽取即实体抽取(2)观点之间的关系抽取即实体关系抽取论文链接:https://arxiv.org/pdf/2203.12881v1.pdf下面我们就快速来看看这篇paper用了什么小技巧领域自适应这里主要就是先用类似Reddit这种 具有讨论原创 2022-03-28 10:36:29 · 1685 阅读 · 1 评论 -
一种用于低资源场景下领域自适应的反事实生成方法
前言领域自适应(DA)已经被研究很久了,但是其常常面临的一个难点就是标注数据不够即所谓的低资源场景,针对这个场景已经有很多解决的思路,生成伪训练样本就是其中一个思路,但是由于生成伪训练样本的模型训练同样面临着低资源的限制所以导致实际效果不太好。今天就带给大家一篇最新的paper论文链接:https://arxiv.org/pdf/2202.12350v1.pdf方法总体思路就是基于一种可控的生成:破坏样本中的一部分关键term,用目标域与之对应的term填充,进而生成新的伪训练样本。原创 2022-03-01 14:49:04 · 369 阅读 · 0 评论 -
CogLTX : bert处理长文本代码解析
前言github: https://github.com/Sleepychord/CogLTX数据预处理首先是数据预处理部分,其主要是将长文本切分为块,即如下3个文件夹对应3个不同数据集的预处理脚本。下面就挑20news这个来看看吧。首先就是按标点符号分隔开,如果两个逗号中间的文本过长(大于B=63),那就按B再切分,然后再合并各个块,合并的原则就是看标点符号,举个例子吧。假设有5个块,第一个块结尾是逗号,第二个结尾是句号,第三个和第四个是由于原来该块过长被分开成两个,第五个块是以句号结尾的。每原创 2020-12-20 23:52:54 · 4364 阅读 · 6 评论 -
TPLinker 实体关系抽取代码解读
前言:论文:https://arxiv.org/pdf/2010.13415.pdf代码:https://github.com/131250208/TPlinker-joint-extraction这篇论文是最新的基于joint方式进行的联合抽取实体关系的模型。主要创新点是提出了新的标注数据方法,具体可以看论文,本篇的主要目的是解读代码逻辑,更多想法细节可以先看论文。主要算法流程就是:总结来说就是:4-8 先进行实体抽取得到字典D(key是实体头部,value是实体尾部)原创 2020-11-15 19:07:12 · 7494 阅读 · 10 评论 -
阿里 CTR模型 DIEN 代码解读
前提github:https://github.com/mouna99/dien/tree/1f314d16aa1700ee02777e6163fb8ca94e3d2810/script阿里CTR模型三剑客即(1)Deep Interest Network for Click-Through Rate Prediction(2)Deep Interest Evolution Network for Click-Through Rate Prediction(3)Deep Session原创 2020-11-10 09:54:02 · 2657 阅读 · 4 评论 -
无监督文本相识度
我们在进行一些nlp任务时,一般需要得到句子的vec编码,一般会试一试bert系列,但是这是有前提的,要fintune! 要fintune!如果想直接“拿来主义”,直接加载公布的pretrain模型来获得vec编码,可能并达不到我们的预期。这里做了两个实验一个使用bert的实验结果,这是网上大多数的例子,可以看到“啦啦啦啦啦啦”和“天空为什么是蓝色的”相似度(余弦相似度)依然很高一个是百度ernie的实验结果,这里极端了一点,可以看到标点和文本依然具有很高的相识度。所以(1)原创 2020-11-04 21:48:23 · 3762 阅读 · 29 评论 -
python 并行化:加快数据的处理
最近在做一个项目,遇到一个比较棘手的问题,那就是在用python 处理数据的时候效率非常低,在查阅了相关问题的同时,学习到不少小窍门,先记录一下供学习。先给出一些方法,最后结合笔者自己的一个例子看一下实际效果第一招:numba神器相关资料:https://www.jianshu.com/p/69d9d7e37bc5第二招:多进程的使用,不得不说的是为什么不使用多线...原创 2019-03-27 15:00:04 · 12526 阅读 · 9 评论 -
Python 二进制中1的个数
使用py来统计二进制中1的个数举例如下:(实现tanimoto相似度函数)def getOneNum(bits): countOne = 0 while bits: countOne = countOne+1 bits = bits&(bits-1) return float(countOne) def tan...原创 2019-04-08 17:00:44 · 361 阅读 · 0 评论 -
TFrecords 制作数据集小例子(多标签)
制作数据集import os import tensorflow as tf import numpy as npoutput_flie = str(os.path.dirname(os.getcwd()))+"/deepcheml/dataset/train.tfrecords"with tf.python_io.TFRecordWriter(output_flie) as ...原创 2019-05-15 14:39:26 · 3068 阅读 · 0 评论 -
Xgboost 实践:基于收支记录判断借贷意愿
------------------------------------------------------------------------------------------------------------------------------------------------------------------------前言:上面是赛题,由于时间有点紧,所以没...原创 2019-05-12 21:07:06 · 1010 阅读 · 0 评论 -
TextGrapher:基于图谱方式的语义挖掘表示代码解读
前言源码:https://github.com/liuhuanyong/TextGrapher代码不是笔者写的,这里仅对上述大佬的代码进行一个解读,做一下笔记,便于后续学习,有任何问题,大家还是直接拜读大佬的源代码。本代码的功能:从一篇文档中根据多种关系抽取信息,最后以知识图谱的形式在浏览器中显示该种关系文本挖掘方面需要包:pyltppyltp包使用说明:https://b...原创 2019-06-14 09:28:36 · 2081 阅读 · 4 评论 -
Deepdive关系抽取:特征源码分析及优化加快信息提取
前言本篇不是Deepdive入门教程,而是对其一些源码细节进行了解读,换句话说要深入到内部去看看其具体是怎么做的,所以看本篇的前提是假设读者已经大概清楚了deepdive的使用流程,如果不是很熟悉,或是第一次使用建议先去看一下入门教程。本篇先是分析特征方面的源码,接着是实践部分,即使用ltp替换默认的斯坦福NLP信息抽取部分进而可优化该部分到数秒内,最后简单说一下其模型方面的问题以及其它补...原创 2019-06-14 09:27:29 · 5829 阅读 · 21 评论 -
snap.py 教程
SNAP是一种用于分析和操纵大型网络的通用高性能系统。 SNAP是用C ++编写的,并针对最高性能和紧凑图形表示进行了优化。 它可以轻松扩展到拥有数亿个节点和数十亿边缘的大型网络。Snap.py提供了SNAP的性能优势,并结合了Python的灵活性。 大多数SNAP功能都可以通过Python中的Snap.py获得笔者这里实践了相关API,并查看了其性能。具体解释看说明文档,其中grap...原创 2019-06-14 09:29:06 · 2238 阅读 · 0 评论 -
deepdive python3 环境下多种实体关系抽取流程
前言:deepdive是基于python2的,如果写脚本时使用python3,就会出现一系列问题,例如最开始可能遇到的报错就是:即找不到dd文件等等22:38:04 [Helpers$(akka://deepdive)] INFO Traceback (most recent call last):22:38:04 [Helpers$(akka://deepdive)] INFO ...原创 2019-06-14 09:28:11 · 6309 阅读 · 16 评论 -
知识融合之dedupe
目录前言:几个比较重要的网址下载安装:1)dedupe安装:2)Unidecode安装:3)future安装:实践一 csv_example1) 数据简介2) 训练模型3) 模型评价4) 模型的保存和加载二 record_linkage_example1) 数据简介2) 训练模型3) 模型评价三 patent_example1...原创 2019-07-04 17:30:19 · 7842 阅读 · 3 评论 -
中文实体关系抽取实践
前言本篇博客主要讲NLP中的关系抽取,聚焦点中文,没有过多理论,侧重实践(监督学习)。关于实体关系抽取的技术发展脉络,感兴趣的可以看一下:https://www.cnblogs.com/theodoric008/p/7874373.html关系抽取有限定关系抽取和开放关系抽取,这里主要说限定关系抽取即分类问题其过程常常又有监督学习和半监督学习,这里主要讲利用深度学习进行的监督学...原创 2019-07-17 16:21:04 · 25171 阅读 · 3 评论 -
bert实践:关系抽取解读
前言bert模型是谷歌2018年10月底公布的,反响巨大,效果不错,在各大比赛上面出类拔萃,它的提出主要是针对word2vec等模型的不足,在之前的预训练模型(包括word2vec,ELMo等)都会生成词向量,这种类别的预训练模型属于domain transfer。而近一两年提出的ULMFiT,GPT,BERT等都属于模型迁移,说白了BERT 模型是将预训练模型和下游任务模型结合在一起的,核心...原创 2019-07-31 16:42:46 · 49894 阅读 · 93 评论 -
远程监督和规则打标结合
背景NLP中有些任务是可以通过深度学习这种监督学习方式来做,但前提也是很显然的,那就是要有准备好的监督数据,但是打标过程却是很困难的一件事,最简单除暴的方法就是人工,但耗时耗力,有没有办法通过程序化的方式自动打标呢?以关系抽取为例,一个常用的方法就是远程监督,简单来说就是在知识图谱中看这一对实体属于什么关系,比如A,那么就大胆的认为所有包含该对实体的句子都是在说这一关系,都可认为是正...原创 2019-08-13 14:01:57 · 1705 阅读 · 0 评论 -
二次开发sklearn包-Kmeans
前言Kmeans是一种聚类算法,sklearn 也给出了其API,很方便我们调用,关于其API的操作,笔者这里也给出了一个小例子,感兴趣的可以看一下:https://blog.csdn.net/weixin_42001089/article/details/79951166但是我们知道Kmeans算法是基于距离(如欧式距离)作为评判指标进行聚类的,现实中我们的需求千差万别,比如我们的项目可...原创 2019-08-22 17:07:40 · 1002 阅读 · 3 评论 -
python_sklearn机器学习算法系列之RandomForest(随机森林算法)
本文主要目的是通过一段及其简单的小程序来快速学习python 中sklearn的RandomForest这一函数的基本操作和使用,注意不是用python纯粹从头到尾自己构建RandomForest,既然sklearn提供了现成的我们直接拿来用就可以了,当然其原理十分重要,下面最简单介绍: 集成学习是将多个模型进行组合来解决单一的预测问题。它的原理是生成多个分类器模型,各...原创 2018-04-15 20:31:09 · 79626 阅读 · 18 评论 -
Python Scrapy 爬取论文以及解决Unhandled error in Deferred问题
前言最近由于要调研一些机器学习方面的最新研究技术,故需要看一些相关方面的论文,这里就简单写了一个爬虫脚本,非常简单,使用的是Scrapy 框架在实践的过程中遇到Unhandled error in Deferred错误,网上大多给出的答案是说由于pypiwin32的问题,可以我的pypiwin32是没有问题的,可就是一直Unhandled error in Deferred错误,很无语呀,...原创 2019-04-13 21:42:22 · 2058 阅读 · 0 评论 -
lightgbm实践:Kaggle桑坦德银行客户交易预测比赛baseline
前言:继上篇介绍了lightgbm的理论知识后(https://blog.csdn.net/weixin_42001089/article/details/85343332),终于有时间来写一篇关于lgb的实践篇啦,本篇的实践是基于kaggle上面一个正在进行的比赛,其采用的是ROC评分机制,截止目前第一名得分是0.904,本篇的的结果是0.899,分数算是一个baseline吧,待优化,目的...原创 2019-02-25 12:50:47 · 7472 阅读 · 14 评论 -
python机器学习算法系列之初识神经网络分类
说明:其中代码主要来源莫烦Python,大家可以去看看,但是因为版本问题(我是python3.6)现在有些函数的调用方法有细微改变,所以我下面的代码做了一些修改,目前其可以在win10上面运行。 建议在读本文之前请阅读前一篇文章python机器学习算法系列之初识神经网络回归下面的例子是区分数字如下图:在程序中通过下面语句就可以自动下载数据集mnist...原创 2018-04-20 17:36:27 · 1290 阅读 · 0 评论 -
python机器学习算法系列之初识神经网络回归
说明:其中代码主要来源莫烦Python,大家可以去看看,但是因为版本问题(我是python3.6)现在有些函数的调用方法有细微改变,所以我下面的代码做了一些修改,目前其可以在win10上面运行。 本文主要目的是简单快速介绍神经网络,然后通过代码运行的结果直观的让大家对神经网络有一个大概的宏观认识,从而有助于大家开展后续深入的研究,总之一句话就是小白入门。 神经网...原创 2018-04-20 15:44:26 · 1084 阅读 · 0 评论 -
python_sklearn机器学习算法系列之AdaBoost------人脸识别(PCA,决策树)
注:在读本文之前建议读一下之前的一片文章python_sklearn机器学习算法系列之PCA(主成分分析)------人脸识别(k-NearestNeighbor,KNN) 本文主要目的是通过一个简单的小例子和很短的代码来快速学习python 中的sklearn.ensemble的 AdaBoost这一模块的基本操作和使用,注意不是用python纯粹从头到尾自...原创 2018-04-19 11:36:37 · 4536 阅读 · 0 评论 -
python_sklearn机器学习算法系列之PCA(主成分分析)------人脸识别(k-NearestNeighbor,KNN)
本文主要目的是通过一个简单的小例子和很短的代码来快速学习python 中的sklearn.decomposition 的 PCA(主成分分析)这一模块的基本操作和使用,注意不是用python纯粹从头到尾自己构建PCA(主成分分析),既然sklearn提供了现成的我们直接拿来用就可以了,当然其原理十分重要,下面简单介绍:(关于PCA更多数学上面的推导可以查看笔者另一篇博客http...原创 2018-04-18 17:39:24 · 6395 阅读 · 1 评论 -
python_sklearn机器学习算法系列之LogisticRegression(逻辑回归)----识别垃圾邮件(短信)
本文主要目的是通过一段及其简单的小程序来快速学习python 中sklearn的LogisticRegression这一函数的基本操作和使用,注意不是用python纯粹从头到尾自己构建LogisticRegression,既然sklearn提供了现成的我们直接拿来用就可以了,当然其原理十分重要,下面最简单介绍: 虽然名称中有回归但其功能多实现的是分类,逻辑回归本质上是...原创 2018-04-16 19:04:35 · 5490 阅读 · 0 评论 -
python_sklearn机器学习算法系列之SVM支持向量机算法
本文主要目的是通过一段及其简单的小程序来快速学习python 中sklearn的svm 这一函数库的基本操作和使用,注意不是用python纯粹从头到尾自己构建svm ,既然sklearn提供了现成的我们直接拿来用就可以了,当然其原理十分重要,这里做简单介绍:SVM方法是通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非...原创 2018-04-15 20:13:04 · 2388 阅读 · 0 评论 -
python_sklearn机器学习算法系列之sklearn.naive_bayes朴树贝叶斯算法
本文主要目的是通过一段及其简单的小程序来快速学习python 中sklearn的naive_bayes这一模块的基本操作和使用,注意不是用python纯粹从头到尾自己构建贝叶斯算法,既然sklearn提供了现成的我们直接拿来用就可以了,当然其原理十分重要,这里做一下简单介绍:P(A|B)=P(A)×P(B|A)/P(B)用文字表述:后验概率=先验概率×相似度/标准化常量而朴素贝叶斯算...原创 2018-04-15 19:53:11 · 6982 阅读 · 0 评论 -
python_sklearn机器学习算法系列之Decision_tree(决策树算法)-DecisionTreeClassifier
本文主要目的是通过及其简单的小程序来快速学习python 中sklearn的DecisionTreeClassifier这一函数的基本操作和使用,注意不是用python纯粹从头到尾自己构建DecisionTreeClassifier,既然sklearn提供了现成的我们直接拿来用就可以了,当然其原理十分重要,这里仅给出最核心部分:1)树以代表训练样本的单个结点开始。2)如果样本都在同一...原创 2018-04-15 19:38:17 · 10372 阅读 · 1 评论 -
python_sklearn机器学习算法系列之K-Means(硬聚类算法)
本文主要目的是通过一段及其简单的小程序来快速学习python 中sklearn的K-Means这一函数的基本操作和使用,注意不是用python纯粹从头到尾自己构建K-Means,既然sklearn提供了现成的我们直接拿来用就可以了,当然K-Means原理还是十分重要,这里简单说一下实现这一算法的过程:1)从N个文档随机选取K个文档作为质心2)对剩余的每个文档测量其到每个质心的距...原创 2018-04-15 19:14:28 · 9933 阅读 · 2 评论 -
python_sklearn机器学习算法系列之k-NearestNeighbor(K最近邻分类算法)
本文主要目的是通过一段及其简单的小程序来快速学习python 中sklearn的KNeighborsClassifier这一函数的基本操作和使用,注意不是用python纯粹从头到尾自己构建KNN,既然sklearn提供了现成的我们直接拿来用就可以了,当然其原理十分重要,其主要思想是,如果一个样本在特征空间中的k个最近邻的样本中的大多数都属于某一类别,则该样本也属于这个类别,k通常是不...原创 2018-04-15 17:20:33 · 2200 阅读 · 0 评论 -
spark millib 推荐模型 +python
首先数据集下载:http://files.grouplens.org/datasets/movielens/ml-100k.zip下载好后解压,里面有几个比较重要首先是u.user 记录着用户的信息u.data记录着用户对其看过的电影的评价u.item记录的便是电影的信息----------------------------------------------------...原创 2018-09-16 14:57:33 · 995 阅读 · 0 评论 -
PCA SVD原理详解及应用
本文分为两大部分即PCA和SVD,每一部分下又分为原理和应用两小部分说明:本文代码参考Peter Harrington编写的Machine Learning in Action,感兴趣的小伙伴可以去看一下,笔者认为这本书还不错注意:本篇重在说明公式推导,关于具体使用的话python有专门的机器学习库已经集成,直接用就可以啦,可以在读完本文的理论部分后再去看笔者另一篇应用了PCA的关于人脸识...原创 2018-10-19 17:14:05 · 3185 阅读 · 0 评论 -
svm原理详细推导
笔者在查阅了大量资料和阅读大佬的讲解之后,终于对svm有了比较深一点的认识,先将理解的推导过程分享如下:本文主要从如下五个方面进行介绍:基本推导,松弛因子,核函数,SMO算法,小结五个方面以%%为分隔,同时有些地方需要解释或者注意一下即在画有---------符号的部分内。本文主要介绍的是理论,并没有涉及到代码,关于代码的具体实现,可以在阅读完本文,掌握了SVM算法的核心内容后去看一下笔者...原创 2018-10-29 17:50:54 · 16725 阅读 · 3 评论 -
聊一聊深度学习以往那些关于CNN和RNN的事
前言:在深度学习方面学习和实践了很长时间了,正好今天比较空闲,觉得还是有必要将其发展历程梳理一下,做一个简单的笔记,就当是看了一场深度学习的纪录片吧哈哈哈,所以没有过多的关于数学方面精确推导等过程,就是根据作者论文做了一个脉络上的简单的感性的梳理,不得不说深度学习的发展是曲折的,其多次跌入低谷,能有今天的再次璀璨,离不开一些大牛的坚持不懈,说的这里就不得不提一下Geoff Hinton,可以看...原创 2019-01-06 14:03:49 · 2076 阅读 · 0 评论 -
LightGBM源码阅读+理论分析(处理特征类别,缺省值的实现细节)
前言关于LightGBM,网上已经介绍的很多了,笔者也零零散散的看了一些,有些写的真的很好,但是最终总觉的还是不够清晰,一些细节还是懵懵懂懂,大多数只是将原论文翻译了一下,可是某些技术具体是怎么做的呢?即落实到代码是怎么做的呢?网上资料基本没有,所以总有一种似懂非懂的感觉,貌似懂了LightGBM,但是又很陌生,很不踏实,所以本篇的最大区别或者优势是:源码分析,看看其到底怎么实现的,同时会将源...原创 2019-01-01 20:20:05 · 22828 阅读 · 24 评论 -
AI 数据集 资源
语音 : https://urbansounddataset.weebly.com/图像 : http://www.robots.ox.ac.uk/~vgg/data/vpn : http://www.kexueren.com.cn/8133.html镜像 : https://blog.csdn.net/qq_25964837/article/details/80295041待更新...原创 2018-12-24 20:17:38 · 796 阅读 · 0 评论