爱吃火锅的博客

私信 关注
weixin_42001089
码龄3年

机器学习狂热分子

  • 474,435
    被访问量
  • 118
    原创文章
  • 16,242
    作者排名
  • 353
    粉丝数量
  • 于 2018-04-15 加入CSDN
获得成就
  • 获得417次点赞
  • 内容获得403次评论
  • 获得1,283次收藏
  • GitHub 获得169Stars
荣誉勋章
TA的专栏
  • 调研
    12篇
  • 计算机基础
    1篇
  • 后台
    1篇
  • html
    1篇
  • chm
    1篇
  • docker
  • 打包
  • 人工智能机器学习
    44篇
  • skia
    7篇
  • skia中文乱码
  • 神经网络
    10篇
  • github
    2篇
  • Linux
    4篇
  • 线程
    1篇
  • 强化学习
    4篇
  • spark
    5篇
  • caffe
  • 大数据
    10篇
  • 算法
    26篇
  • python
    11篇
  • java
    1篇
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

标签分布学习

目录前言传统的方法论文方法总结前言一般来说我们的标签数据都是硬标签,非0即1,如one-hot或multi-one-hot,但是一些软标签有时候更具有意义,含有的信息也越丰富,即标签分布如【0.1,0.2,0.7】而不是【0,0,1】,那么该如何学习得到这样的标签分布呢?有一篇论文对此进行了讨论和研究Label Enhancement for Label Distribution Learning这是发表在IJCAI-18的一篇,即标签增强技术,已有中文解读https
原创
5阅读
0评论
0点赞
发布博客于 6 天前

LDA困惑度

用perplexity去看主题个数,代码供参考import reimport mathimport jsonimport randomimport requestsimport pandas as pdfrom gensim import corpora, modelsimport jieba.posseg as jp, jiebafrom gensim import corpora, modelsimport matplotlib.pyplot as pltfrom tqdm i
原创
26阅读
1评论
0点赞
发布博客于 7 天前

半监督之伪标签法

前言半监督学习一般有两个方法一致性正则和打伪标签法即 consistency regularization 和 pseudo-label, 其中一致性正则主要是基于数据增强的一致性正则,目前比较成熟,关于数据增强笔者也总结过一篇博客即《半监督之数据增强》: https://blog.csdn.net/weixin_42001089/article/details/113307918今天来看看打伪标签法,这个其实原理很简单,就是先用少量的有标签数据训练一个基础模型,然后用其对大量无监督数据进行预测
原创
31阅读
1评论
0点赞
发布博客于 7 天前

NLP漏标问题

前言不管在什么任务中进行监督学习,都需要标签,但一般会存在有标签数据不足,这个问题已经很常见了,可以看看《半监督小样本数据学习》https://blog.csdn.net/weixin_42001089/article/details/113307918?spm=1001.2014.3001.5501但是今天我们来说说另一个情况,那就是漏标问题,这个问题更加严重,为什么呢?因为漏标了我们就会自动认为其是负样本,这其实是一种噪声了,而且是很严重的噪声,当然了和错标还有区别,错标是也可能会吧负样本标
原创
17阅读
0评论
0点赞
发布博客于 8 天前

自适应决策边界分类

前言有的时候,我们有一个任务是m分类,但是呢并不是所有的样本一定属于这m类中的每一类,我们暂且把这部分样本称为噪声吧,所以我们的任务就是不但要对该样本进行正确分类,且当它是噪声的时候我们还要检验出来,怎么做呢,一般是有两种想法:(1)设定概率阈值,将最大分类置信度低于阈值的样本看作噪声;(2)结合m类样本几何特征通过决策边界或者分布密度将噪声分离出来。今天偶然刷到一篇论文就是基于第(2)种思路来进行的《Deep Open Intent Classification with Adaptive
原创
50阅读
0评论
0点赞
发布博客于 15 天前

文本半监督聚类

前言聚类很常见了,很多场景下都需要聚类,笔者当前遇到一个问题是实体消歧,实体是一个个小短句,没有标注没有任何先验知识,想到的就是通过聚类将一些相似实体聚在一起达到目的。当前聚类有两大种,比如需要提前定义簇中心个数的,以Kmeans最为大家熟知,原理简单有效。还有一种是不需要提前定义簇中心个数的,比如流式聚类。一般情况下,簇中心个数是很难知道的,所以可以选流式聚类等等,但今天要说说收录在AAAI 2021的一篇论文《Discovering New Intents with Deep Aligned C
原创
19阅读
0评论
0点赞
发布博客于 15 天前

无监督分类

目录前言:标签名称替换类别预测自训练总结前言:在训练模型的时候,比如分类任务等等,都需要有标签数据进行监督学习,即使是要少量的标签数据,也可采用半监督的方式来提高模型的泛化性,关于一些最新的半监督学习可以参看笔者另一篇博客:《半监督小样本数据学习》:https://blog.csdn.net/weixin_42001089/article/details/113307918但是今天要分享的这篇论文是EMNLP20论文《Text Classification Usin.
原创
37阅读
1评论
1点赞
发布博客于 23 天前

多模态预训练模型

前言自从2018年Bert预训练模型大方异彩之后,预训练模型可以说百花齐放,关于预训练模型领域的一些总体概括,可以参考笔者另一篇博客<预训练模型的那些方向和研究成果>:https://blog.csdn.net/weixin_42001089/article/details/113267764之前都是单独处理文本数据,但随着场景和业务的驱动,输入数据变成了多种形式,如图像+语言,今天就大体来说说目前该分支的一些发展成果或者方法,主要是对百度自然语言处理部高级研发工程师唐尼老师的一个论
原创
101阅读
1评论
0点赞
发布博客于 2 月前

半监督之数据增强

前言有许多场景,我们只有少量样本,而训练网络模型时是需要吃大量数据的,一种方法就是迁移学习,比如预训练模型等方法,但是这里我们从另外一个角度来看看,那就是数据增强,关于数据增强方法已有很多,这里说说一些常见的方法,尤其是最新的(当前时间是2021.1.28)一些方法。传统常见的比如对于文本数据来说,最容易的就是shuffle, drop, 同义词替换,回译,随机插入,等等,这些都是一些最基本的方法,依据token 在本身上面做些扰动改变来数据增加,更多的可以看一下nlpcda这个python包
原创
141阅读
0评论
0点赞
发布博客于 2 月前

预训练模型的那些方向和研究成果

前言自2018年底,bert横空出世以来,预训练模型大放光彩,各种变种层出不穷,研究的方向也多种多样,这里大体总结一下目前预训练模型的一些东西数据集关于数据集,那就是要大!!!例如百度的ERNIE2.0达到了700G,谷歌最新的T5也有700G,这些语料...
原创
68阅读
1评论
0点赞
发布博客于 2 月前

测试集没有标签怎么评价?

背景:很多时候当我们需要评价一个模型的性能时,是通过看其在测试集上面的一些评价指标如precision、recall等等,但是这需要一个大前提,那就是测试集得有标签,如果没有标签就无法进行计算,实际场景中很多测试数据集都是没有标签的。为此最粗暴的就是人工打标,这个最好了,但是当测试集很大或者很多,那标起来成本就很高,为此怎么办?接下来就聊一聊一些已有的解决办法,供借鉴。activate learning即主动学习,既然人打标成本太高,那就让程序打标,他的主要思路如下:先人工打标一批少量的
原创
58阅读
0评论
0点赞
发布博客于 2 月前

CogLTX : bert处理长文本代码解析

前言github: https://github.com/Sleepychord/CogLTX数据预处理首先是数据预处理部分,其主要是将长文本切分为块,即如下3个文件夹对应3个不同数据集的预处理脚本。下面就挑20news这个来看看吧。首先就是按标点符号分隔开,如果两个逗号中间的文本过长(大于B=63),那就按B再切分,然后再合并各个块,合并的原则就是看标点符号,举个例子吧。假设有5个块,第一个块结尾是逗号,第二个结尾是句号,第三个和第四个是由于原来该块过长被分开成两个,第五个块是以句号结尾的。每
原创
312阅读
2评论
1点赞
发布博客于 2 月前

bert蒸馏

交互/表示模型交互模型: 两句话拼接成一句话,缺点就是长度弄不了太长,线上性能也压力大,优点就是两句话交互编码更加充分表示模型:两句话分别进bert模型,所以是双塔模型,优点就是单句长度可以更长,线上也可以做到更好,因为其中一个bert边的向量可以保存,用的时候直接取。缺点就是两句话交互性其实比较弱,都是单独编码,只在最后一层取两个向量计算相似性。一个可以稍微缓解这种交互性的方案就是Poly-encoder,比如两个Bert最后输出的hidden_size是768,那么可以将其分成12个头head,
原创
55阅读
2评论
0点赞
发布博客于 3 月前

tensorflow 查看是否可用GPU

import tensorflow as tfgpu_device_name = tf.test.gpu_device_name()print(gpu_device_name)print(tf.test.is_gpu_available())from tensorflow.python.client import device_lib # 列出所有的本地机器设备local_device_protos = device_lib.list_local_devices()# 打印# .
原创
390阅读
0评论
1点赞
发布博客于 3 月前

TPLinker 实体关系抽取代码解读

前言:论文:https://arxiv.org/pdf/2010.13415.pdf代码:https://github.com/131250208/TPlinker-joint-extraction这篇论文是最新的基于joint方式进行的联合抽取实体关系的模型。主要创新点是提出了新的标注数据方法,具体可以看论文,本篇的主要目的是解读代码逻辑,更多想法细节可以先看论文。主要算法流程就是:总结来说就是:4-8 先进行实体抽取得到字典D(key是实体头部,value是实体尾部)
原创
463阅读
0评论
3点赞
发布博客于 3 月前

阿里 CTR模型 DIEN 代码解读

前提github:https://github.com/mouna99/dien/tree/1f314d16aa1700ee02777e6163fb8ca94e3d2810/script阿里CTR模型三剑客即(1)Deep Interest Network for Click-Through Rate Prediction(2)Deep Interest Evolution Network for Click-Through Rate Prediction(3)Deep Session
原创
278阅读
1评论
2点赞
发布博客于 3 月前

BERT-Flow:无监督文本相识度代码解读

我们在进行一些nlp任务时,一般需要得到句子的vec编码,一般会试一试bert系列,但是这是有前提的,要fintune! 要fintune!如果想直接“拿来主义”,直接加载公布的pretrain模型来获得vec编码,可能并达不到我们的预期。这里做了两个实验一个使用bert的实验结果,这是网上大多数的例子,可以看到“啦啦啦啦啦啦”和“天空为什么是蓝色的”相似度(余弦相似度)依然很高一个是百度ernie的实验结果,这里极端了一点,可以看到标点和文本依然具有很高的相识度。所以(1)
原创
392阅读
16评论
4点赞
发布博客于 3 月前

日常论文分享---持续更新中

日常充电是必须的,每天进步一点点,下面是从日常关注的博主啦公众号啦看过的一些论文,分享分享!!(1) Self-training Improves Pre-training for Natural Language Understanding原文:https://arxiv.org/pdf/2010.02194.pdf更详细的解析:https://zhuanlan.zhihu.com/p/268770394?utm_source=wechat_session&utm_medium=soc
原创
101阅读
0评论
0点赞
发布博客于 4 月前

cpu 缓存,让程序快起来

原文:https://mp.weixin.qq.com/s?__biz=MzAxODQxMDM0Mw==&mid=2247487711&idx=2&sn=6302fb3e6fc73e07dd05147e8dca20d3&chksm=9bd7eed7aca067c191a5cc8f69c151a7910293470e43f3fef93db2cfe1aa2e82acc9915725aa&mpshare=1&scene=1&srcid=1022S9...
原创
55阅读
0评论
0点赞
发布博客于 4 月前

python 发送邮件

发邮件分为发送方和接受方,首先要获得发送方的授权码。登录发送方的邮箱服务器(这里就用qq,页面登录qq邮箱),然后选择 【设置】-----》【账户设置】在账户设置页面下拉一直找到【POP3/SMTP服务】,点击开启此时会得到授权码,记住它,如下然后在下面的程序中发送方的地方添加上相应的发送方qq和授权码,然后随便填一个接收方的邮箱运行即可# smtplib 用于邮件的发信动作import smtplibfrom email.mime.text import MIMETex.
原创
56阅读
2评论
1点赞
发布博客于 4 月前

chm 转化为 html 转化为 txt

# -*- coding: utf-8 -*-# @Time : 2020/10/16 14:09 PM# @Author : yangkaitong# @FileName: preprocessing.py######################################################################## win下bat运行该命令,会将chm转化为txt,部分会转化成html #### h...
原创
62阅读
0评论
0点赞
发布博客于 4 月前

zipkin+elasticsearch+kibana链路监控

1 简介 在win下 模拟客户买东西即一个叫bert的客户访问优衣库买衣服的简单demo,并将数据持久化到elasticsearch,最后通过kibana来搜 索、查看交互存储在Elasticsearch索引中的数据。2 前期准备 2.1下载elasticsearch 镜像网站:https://mirrors.huaweicloud.com/elasticsearch/7.6.2/ 2.2下载kibana 镜像网站: http...
原创
895阅读
2评论
1点赞
发布博客于 6 月前

二次开发sklearn包-Kmeans

前言Kmeans是一种聚类算法,sklearn 也给出了其API,很方便我们调用,关于其API的操作,笔者这里也给出了一个小例子,感兴趣的可以看一下:https://blog.csdn.net/weixin_42001089/article/details/79951166但是我们知道Kmeans算法是基于距离(如欧式距离)作为评判指标进行聚类的,现实中我们的需求千差万别,比如我们的项目可...
原创
455阅读
2评论
1点赞
发布博客于 2 年前

远程监督和规则打标结合

背景NLP中有些任务是可以通过深度学习这种监督学习方式来做,但前提也是很显然的,那就是要有准备好的监督数据,但是打标过程却是很困难的一件事,最简单除暴的方法就是人工,但耗时耗力,有没有办法通过程序化的方式自动打标呢?以关系抽取为例,一个常用的方法就是远程监督,简单来说就是在知识图谱中看这一对实体属于什么关系,比如A,那么就大胆的认为所有包含该对实体的句子都是在说这一关系,都可认为是正...
原创
858阅读
0评论
1点赞
发布博客于 2 年前

bert实践:关系抽取解读

前言bert模型是谷歌2018年10月底公布的,反响巨大,效果不错,在各大比赛上面出类拔萃,它的提出主要是针对word2vec等模型的不足,在之前的预训练模型(包括word2vec,ELMo等)都会生成词向量,这种类别的预训练模型属于domain transfer。而近一两年提出的ULMFiT,GPT,BERT等都属于模型迁移,说白了BERT 模型是将预训练模型和下游任务模型结合在一起的,核心...
原创
23594阅读
75评论
49点赞
发布博客于 2 年前

中文实体关系抽取实践

前言本篇博客主要讲NLP中的关系抽取,聚焦点中文,没有过多理论,侧重实践(监督学习)。关于实体关系抽取的技术发展脉络,感兴趣的可以看一下:https://www.cnblogs.com/theodoric008/p/7874373.html关系抽取有限定关系抽取和开放关系抽取,这里主要说限定关系抽取即分类问题其过程常常又有监督学习和半监督学习,这里主要讲利用深度学习进行的监督学...
原创
8398阅读
2评论
14点赞
发布博客于 2 年前

知识融合之dedupe

目录前言:几个比较重要的网址下载安装:1)dedupe安装:2)Unidecode安装:3)future安装:实践一 csv_example1) 数据简介2) 训练模型3) 模型评价4) 模型的保存和加载二 record_linkage_example1) 数据简介2) 训练模型3) 模型评价三 patent_example1...
原创
2954阅读
3评论
7点赞
发布博客于 2 年前

pip 国内源

阿里云 http://mirrors.aliyun.com/pypi/simple/豆瓣http://pypi.douban.com/simple/清华大学 https://pypi.tuna.tsinghua.edu.cn/simple/中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/华中科技大学http://pypi.hustunique...
原创
1180阅读
0评论
0点赞
发布博客于 2 年前

snap.py 教程

SNAP是一种用于分析和操纵大型网络的通用高性能系统。 SNAP是用C ++编写的,并针对最高性能和紧凑图形表示进行了优化。 它可以轻松扩展到拥有数亿个节点和数十亿边缘的大型网络。Snap.py提供了SNAP的性能优势,并结合了Python的灵活性。 大多数SNAP功能都可以通过Python中的Snap.py获得笔者这里实践了相关API,并查看了其性能。具体解释看说明文档,其中grap...
原创
1393阅读
0评论
2点赞
发布博客于 2 年前

TextGrapher:基于图谱方式的语义挖掘表示代码解读

前言源码:https://github.com/liuhuanyong/TextGrapher代码不是笔者写的,这里仅对上述大佬的代码进行一个解读,做一下笔记,便于后续学习,有任何问题,大家还是直接拜读大佬的源代码。本代码的功能:从一篇文档中根据多种关系抽取信息,最后以知识图谱的形式在浏览器中显示该种关系文本挖掘方面需要包:pyltppyltp包使用说明:https://b...
原创
1054阅读
4评论
4点赞
发布博客于 2 年前

deepdive python3 环境下多种实体关系抽取流程

前言:deepdive是基于python2的,如果写脚本时使用python3,就会出现一系列问题,例如最开始可能遇到的报错就是:即找不到dd文件等等22:38:04 [Helpers$(akka://deepdive)] INFO Traceback (most recent call last):22:38:04 [Helpers$(akka://deepdive)] INFO ...
原创
3836阅读
15评论
2点赞
发布博客于 2 年前

Deepdive关系抽取:特征源码分析及优化加快信息提取

前言本篇不是Deepdive入门教程,而是对其一些源码细节进行了解读,换句话说要深入到内部去看看其具体是怎么做的,所以看本篇的前提是假设读者已经大概清楚了deepdive的使用流程,如果不是很熟悉,或是第一次使用建议先去看一下入门教程。本篇先是分析特征方面的源码,接着是实践部分,即使用ltp替换默认的斯坦福NLP信息抽取部分进而可优化该部分到数秒内,最后简单说一下其模型方面的问题以及其它补...
原创
2442阅读
9评论
7点赞
发布博客于 2 年前

pyltp wheel安装包(含py35,py36).zip

pyltp 安装包,使用wheel直接安装,里面包含python35和python36
zip
发布资源于 2 年前

TFrecords 制作数据集小例子(多标签)

制作数据集import os import tensorflow as tf import numpy as npoutput_flie = str(os.path.dirname(os.getcwd()))+"/deepcheml/dataset/train.tfrecords"with tf.python_io.TFRecordWriter(output_flie) as ...
原创
1898阅读
0评论
1点赞
发布博客于 2 年前

Xgboost 实践:基于收支记录判断借贷意愿

------------------------------------------------------------------------------------------------------------------------------------------------------------------------前言:上面是赛题,由于时间有点紧,所以没...
原创
583阅读
0评论
0点赞
发布博客于 2 年前

Python Scrapy 爬取论文以及解决Unhandled error in Deferred问题

前言最近由于要调研一些机器学习方面的最新研究技术,故需要看一些相关方面的论文,这里就简单写了一个爬虫脚本,非常简单,使用的是Scrapy 框架在实践的过程中遇到Unhandled error in Deferred错误,网上大多给出的答案是说由于pypiwin32的问题,可以我的pypiwin32是没有问题的,可就是一直Unhandled error in Deferred错误,很无语呀,...
原创
705阅读
0评论
1点赞
发布博客于 2 年前

numpy.partition的用法

功能np.partition的工作流程可以看做是先对数组排序(升序),然后以索引是i的元素为基准,将元素分成两部分,即大于该元素的放在其后面,小于该元素的放在其前面,这里有点类似于快排,具体看下面的类子:import numpy as npresult = np.random.randint(1, 13,(6,4))print(result)result1 = np.sort(re...
原创
5041阅读
0评论
4点赞
发布博客于 2 年前

Python 二进制中1的个数

使用py来统计二进制中1的个数举例如下:(实现tanimoto相似度函数)def getOneNum(bits): countOne = 0 while bits: countOne = countOne+1 bits = bits&(bits-1) return float(countOne) def tan...
原创
138阅读
0评论
0点赞
发布博客于 2 年前

python 合并多个csv文件的那些坑

合并多个csv文件,网上一搜大体会看到这个程序:csv_list = glob.glob('*.csv') #查看同文件夹下的csv文件数print(u'共发现%s个CSV文件'% len(csv_list))print(u'正在处理............')for i in csv_list: #循环读取同文件夹下的csv文件 fr = open(i,'rb').read(...
原创
4908阅读
4评论
5点赞
发布博客于 2 年前

python 并行化:加快数据的处理

最近在做一个项目,遇到一个比较棘手的问题,那就是在用python 处理数据的时候效率非常低,在查阅了相关问题的同时,学习到不少小窍门,先记录一下供学习。先给出一些方法,最后结合笔者自己的一个例子看一下实际效果第一招:numba神器相关资料:https://www.jianshu.com/p/69d9d7e37bc5第二招:多进程的使用,不得不说的是为什么不使用多线...
原创
6357阅读
9评论
3点赞
发布博客于 2 年前

anaconda 安装不存在的包

今天用anaconda安装一个包,结果说在现有路径下找不到该包,这里特此记录一下解决过程笔者这里想要安装的包是python_utilities首先寻找一下该包anaconda search -t conda 你要的包可以看到找到一个包即:名字是sdaxen/sdaxen_python_utilities然后来看一下其详细信息:anaconda show 搜索出包的...
原创
1268阅读
0评论
1点赞
发布博客于 2 年前

B树,B+树

https://www.cnblogs.com/nullzx/p/8729425.html总结如下:当数据量大时,我们如果用二叉树来存储的会导致树的高度太高,从而造成磁盘IO过于频繁,进而导致查询效率下降。因此采用B树来解决大数据存储的问题,很多数据库中都是采用B树或者B+树来进行存储的。其目的就是减少磁盘IO,提高查询效率。数据库大多用B+,那为什么是B+树而不是B树呢,因为它内节点不存...
原创
97阅读
0评论
0点赞
发布博客于 2 年前

lightgbm实践:Kaggle桑坦德银行客户交易预测比赛baseline

前言:继上篇介绍了lightgbm的理论知识后(https://blog.csdn.net/weixin_42001089/article/details/85343332),终于有时间来写一篇关于lgb的实践篇啦,本篇的实践是基于kaggle上面一个正在进行的比赛,其采用的是ROC评分机制,截止目前第一名得分是0.904,本篇的的结果是0.899,分数算是一个baseline吧,待优化,目的...
原创
4762阅读
13评论
8点赞
发布博客于 2 年前

头条算法题:产品经理,程序员任务调度、用户喜好值算法等等

思路是很简单的,就是以时间为主线,在当前时刻,先统计出所有该时刻提出的idea然后以PM为类别分组这些idea即代码中的group然后计算出每个PM最想先实现的idea,记录在IdeaPriority中然后就是遍历每个程序员,只要程序员在该时刻空闲,就从IdeaPriority中按题目要求选出一个idea给其完成遍历完每个程序员后也就是说在当前时刻遍历完了所有程序员,然后时...
原创
1482阅读
1评论
4点赞
发布博客于 2 年前

聊一聊深度学习以往那些关于CNN和RNN的事

前言:在深度学习方面学习和实践了很长时间了,正好今天比较空闲,觉得还是有必要将其发展历程梳理一下,做一个简单的笔记,就当是看了一场深度学习的纪录片吧哈哈哈,所以没有过多的关于数学方面精确推导等过程,就是根据作者论文做了一个脉络上的简单的感性的梳理,不得不说深度学习的发展是曲折的,其多次跌入低谷,能有今天的再次璀璨,离不开一些大牛的坚持不懈,说的这里就不得不提一下Geoff Hinton,可以看...
原创
639阅读
0评论
1点赞
发布博客于 2 年前

LightGBM源码阅读+理论分析(处理特征类别,缺省值的实现细节)

前言关于LightGBM,网上已经介绍的很多了,笔者也零零散散的看了一些,有些写的真的很好,但是最终总觉的还是不够清晰,一些细节还是懵懵懂懂,大多数只是将原论文翻译了一下,可是某些技术具体是怎么做的呢?即落实到代码是怎么做的呢?网上资料基本没有,所以总有一种似懂非懂的感觉,貌似懂了LightGBM,但是又很陌生,很不踏实,所以本篇的最大区别或者优势是:源码分析,看看其到底怎么实现的,同时会将源...
原创
14089阅读
17评论
35点赞
发布博客于 2 年前

java语言的一些机制

来源:https://www.bilibili.com/video/av29306544这里列举了几个比较重要的方面,其实有很多在目前的高级语言中都有相同的机制。this ,staticthis 指的是本身,在Python 中就是self,它的功能就是利用了地址来指向当前对象由下图可以看到,方法区可以看做是没有地址的(并不准确),而静态变量,静态方法都是在方法区,所以在静态方法中是...
原创
218阅读
0评论
0点赞
发布博客于 3 年前

AI 数据集 资源

语音 : https://urbansounddataset.weebly.com/图像 : http://www.robots.ox.ac.uk/~vgg/data/vpn : http://www.kexueren.com.cn/8133.html镜像 : https://blog.csdn.net/qq_25964837/article/details/80295041待更新...
原创
570阅读
0评论
0点赞
发布博客于 3 年前

spark入门框架+python

简介: 不可否认,spark是一种大数据框架,它的出现往往会有Hadoop的身影,其实Hadoop更多的可以看做是大数据的基础设施,它本身提供了HDFS文件系统用于大数据的存储,当然还提供了MR用于大数据处理,但是MR有很多自身的缺点,针对这些缺点也已经有很多其他的方法,类如针对MR编写的复杂性有了Hive,针对MR的实时性差有了流处理Strom等等,spark设计也是针对MR功能的,它并...
原创
826阅读
0评论
0点赞
发布博客于 3 年前

Could not find a version that satisfies the requirement tensorflow问题汇总+解决!!!

前言:极力推荐使用Anaconda------------------------------------------------------------------------------一般报错就是:问题一Could not fetch URL https://pypi.python.org/simple/....然后就是:问题二Could not find a ver...
原创
115759阅读
26评论
49点赞
发布博客于 3 年前

机器学习实践流程(随机森林+LSTM实践)

前言:这两天做了一个故障检测的小项目,从一开始的数据处理,到最后的训练模型等等,一趟下来,发现其实基本就体现了机器学习怎么处理数据的大概流程,为此这里记录一下!供大家学习交流。本次实践结合了传统机器学习的随机森林和深度学习的LSTM两大模型关于LSTM的实践网上基本都是利用了Mnist数据集,但是其他方面的很少,这里我们就来看一下其在本问题的分类效果依次从如下六部分介绍,程序运行顺...
原创
5024阅读
11评论
10点赞
发布博客于 3 年前

Inorder , Postorder and Preorder Traversal to Construct Binary

不管是由先序遍历+中序遍历构造二叉树,还是由后序遍历+中序遍历构造二叉树,其实关键在于中序遍历,正是由于它的存在才使得构造出的二叉树唯一性,换句话说,由先序遍历+后序遍历得到的二叉树是不唯一的。为什么呢?因为一个二叉树最基本的单元就是根节点+左右子树,再庞大的二叉树也都是由其不断递归组成即可:根节点:先序遍历和后序遍历都能准确的找到根节点左右子树:中序遍历很容易找到根节点的左右子树...
原创
237阅读
0评论
0点赞
发布博客于 3 年前

Xgboost实践+第一名天池o2o优惠券的使用预测思路完整版

前言:即上篇理论的学习之后,我们来实践一个天池上面的比赛:o2o优惠券的使用预测(目前第一名auc:0.81,本篇:0.786,待优化)大赛地址https://tianchi.aliyun.com/getStart/introduction.htm?spm=5176.100066.0.0.479b33aflxXSQ8&amp;raceId=231593首先解题思路来源于原第一名wepe...
原创
12640阅读
65评论
18点赞
发布博客于 3 年前

集成学习之Xgboost超详细推导

前言 继上篇GBDT的介绍https://blog.csdn.net/weixin_42001089/article/details/84937301我们来看看其升级版,也是目前用的比较多的Xgboost模型,建议先看上篇博客,再来看本篇会容易些当然了也希望去看一下集成学习这一大家族的整体框架https://blog.csdn.net/weixin_42001089/article/...
原创
4129阅读
21评论
4点赞
发布博客于 3 年前

集成学习之GBDT超详细推导

继上篇介绍的集成学习大框架后https://blog.csdn.net/weixin_42001089/article/details/84935462本文介绍其框架里面的GBDT。原论文:https://statweb.stanford.edu/~jhf/ftp/trebst.pdf---------------------------------------------------...
原创
7407阅读
5评论
9点赞
发布博客于 3 年前

机器学习之集成学习

集成学习是机器学习中的一大分支。本篇文章重在梳理整个集成学习这一大分支的框架,所以更多的是概念,具体到某一细枝末叶会在后续文章单独给出详细介绍。出现背景:单个机器学习模型所能解决的问题有限,泛化能力差,但是通过构建组合多个学习器来完成学习任务往往能够获得奇效,这些学习器可以看成是一个个基本单元,由他们组合最终形成一个强大的整体,该整体可以解决更复杂的问题,集成学习的思想可以形象的归结为一句...
原创
2336阅读
0评论
7点赞
发布博客于 3 年前

96. Unique Binary Search Trees and 95. Unique Binary Search Trees II

 可以看到第二道题要更复杂些,其实第二道题求出来的时候,第一个遍迎刃而解无非就是统计一下个数对吧。其实在不要树的具体结构只要个数的情况下即第一道题有更简便,更好的解题方式即其可以看做是动态规划问题--------------------------------------------------------------------------------------------...
原创
94阅读
0评论
0点赞
发布博客于 3 年前

3. Longest Substring Without Repeating Characters

Given a string, find the length of the longest substring without repeating characters.Input: "abcabcbb"Output: 3 Explanation: The answer is "abc", which the length is 3.Input: "bbbbb"Output: ...
原创
79阅读
0评论
0点赞
发布博客于 3 年前

765. Couples Holding Hands+399. Evaluate Division+Union-Find(并查集算法)详细探讨!!!!!!

 本文先给出Union-Find算法的模板,然后结合该算法,解决两道题即Couples Holding Hands和Evaluate Division并给出详细的结题思路过程,虽然可能有点绕,但是对开阔思路,尤其是帮助我们对Union-Find算法的灵活使用都有很大的收益,这两道题都有别的解法,在一定程度上也更好理解,但是我们使用Union-Find其意义更重要的是在于可以借此学习一下Unio...
原创
362阅读
1评论
0点赞
发布博客于 3 年前

拓扑排序:判断有向图是否有环(超级详细剖析!!)+207. Course Schedule实例

本文先给定义,接着以举例的形式讲解算法原理,最后使用python实践--------------------------------------------------------------------------------------------------------------------------------------------------------------------...
原创
3854阅读
2评论
4点赞
发布博客于 3 年前

42 Trapping Rain Water And 11. Container With Most Water

这是一类题,其核心就是牢牢把握住“短板”二字谁白了这就是木桶效应,能放水的高度是由那个短板决定的方法都是相同的即大体思路就是:首先需要两个指针,分别从左右出发,然后比较两者,哪个低我们就取哪一个作为当前能放水的最大高度,依次来进行一系列相关的计算下面先来看第一个例子正如上面所说,这里定义左右两个指针,当然了这里并非真真的指针,他们的取值就是走过的矩形的最大高度clas...
原创
87阅读
0评论
0点赞
发布博客于 3 年前

(python stack) leetcode84 Largest Rectangle in Histogram And 85. Maximal Rectangle

这道题使用的知识点是:栈从左到右,如果当前对应的小矩形高度大于栈顶对应小矩形高度,进栈,移动到下一个小矩形,,,,,,,,,否则栈顶元素出栈,再次比较此时栈顶元素和当前对应的小矩形高度,如果前者还是大于后者,继续出栈,直到小于等于为止依次计算上面一次连续出栈的小矩形组成的矩形面积,最大面积依此不断更新最后返回最大面积注意:这里每次进栈的是小矩形对应的索引而不是其高度,同时可...
原创
1726阅读
0评论
4点赞
发布博客于 3 年前

python cmp_to_key

这里介绍一个Python 中比较好用的模块,就是functools中的cmp_to_key这里所说的cmp_to_key是在python3中使用的,其实就是python2中的cmp函数它具体的作用是什么呢?一句话就是比较函数下面来举一个简单的例子就是:class Solution: def largestNumber(self, nums): """...
原创
2934阅读
0评论
1点赞
发布博客于 3 年前

python cmp_to_key

这里介绍一个Python 中比较好用的模块,就是functools中的cmp_to_key这里所说的cmp_to_key是在python3中使用的,其实就是python2中的cmp函数它具体的作用是什么呢?一句话就是比较函数下面来举一个简单的例子就是:class Solution: def largestNumber(self, nums): """...
原创
2934阅读
0评论
1点赞
发布博客于 3 年前

排序大法--------快速排序VS归并排序+实践

排序算法有很多,从时间复杂度比较高的冒泡排序,插入排序,到复杂度低的快速排序,归并排序等,可以说很多很多,冒泡排序,插入排序这种比较好理解,不做详细介绍就给一个简单的例子吧!!!如下。本文主要讨论一下复杂度低的快速排序,归并排序插入排序:这里看一下leetcode147Definition for singly-linked list.# class ListNode(obje...
原创
409阅读
0评论
0点赞
发布博客于 3 年前

从L2R开始理解一下xgboost的 'objective': 'rank:pairwise'参数

我们首先对概念进行一下简单的介绍,然后结合例子来验证一下两部分以红色为分界线----------------------------------------------------------------------------------------------------------------首先说一下 ranking即排序问题,这在信息检索等领域是需要解决的核心问题简单来说...
原创
6886阅读
4评论
11点赞
发布博客于 3 年前

dfs调用小经验+All Nodes Distance K in Binary Tree实践

这里记录一个小经验吧,关于dfs的原理和更多实践可以看:https://blog.csdn.net/weixin_42001089/article/details/83001841在处理树问题的时候,一般要使用dfs进行遍历,遍历函数的参数有时候需要母亲节点和孩子节点即如下形式:def dfs(parent,child): pass比如我们定义好了该dfs函数,在之后...
原创
94阅读
0评论
0点赞
发布博客于 3 年前

pandas 的group 及其as_index理解

以下面这张表进行说明:print(dfoff) User_id Merchant_id Coupon_id Discount_rate Distance Date_received \0 1439408 2632 NaN NaN 0.0 NaN 1 1439408 ...
原创
1568阅读
0评论
0点赞
发布博客于 3 年前

/opt/conda/lib/python3.6/site-packages/pandas/core/ops.py:816: pandas 处理 NaN

这里记录一下犯过的及其傻帽的错误!!!!哈哈,无语,同时讨论一下NaN这个数据类型的处理/opt/conda/lib/python3.6/site-packages/pandas/core/ops.py:816: FutureWarning: elementwise comparison failed; returning scalar instead, but in the future w...
原创
9174阅读
1评论
2点赞
发布博客于 3 年前

LCA-Tarjan,RMQ,倍增算法超详细原理讲解+python实践(Lowest Common Ancestor of a Binary Tree)

最近公共祖先算法:通常解决这类问题有两种方法:在线算法和离线算法在线算法:每次读入一个查询,处理这个查询,给出答案离线算法:一次性读入所有查询,统一进行处理,给出所有答案我们接下来介绍一种离线算法:Tarjan,两种在线算法:RMQ,倍增算法Tarjan的时间复杂度是O(n+q)RMQ是一种先进行O(nlogn) 预处理,然后O(1)在线查询的算法。倍增算法是一种时...
原创
749阅读
0评论
0点赞
发布博客于 3 年前

svm原理详细推导

笔者在查阅了大量资料和阅读大佬的讲解之后,终于对svm有了比较深一点的认识,先将理解的推导过程分享如下:本文主要从如下五个方面进行介绍:基本推导,松弛因子,核函数,SMO算法,小结五个方面以%%为分隔,同时有些地方需要解释或者注意一下即在画有---------符号的部分内。本文主要介绍的是理论,并没有涉及到代码,关于代码的具体实现,可以在阅读完本文,掌握了SVM算法的核心内容后去看一下笔者...
原创
3443阅读
2评论
18点赞
发布博客于 3 年前

SVM SMO算法代码详细剖析

算法实现一:本文要结合SVM理论部分来看即笔者另一篇https://blog.csdn.net/weixin_42001089/article/details/83276714二:有了理论部分下面就是直接代码啦,本文用四部分进行介绍:最简版的SMO,改进版platt SMO,核函数,sklearn库的SVM,四部分以%%%%%%%分开,采取的顺序是先给代码及结果,然后分析三:这里代码大...
原创
5031阅读
8评论
9点赞
发布博客于 3 年前

PCA SVD原理详解及应用

本文分为两大部分即PCA和SVD,每一部分下又分为原理和应用两小部分说明:本文代码参考Peter Harrington编写的Machine Learning in Action,感兴趣的小伙伴可以去看一下,笔者认为这本书还不错注意:本篇重在说明公式推导,关于具体使用的话python有专门的机器学习库已经集成,直接用就可以啦,可以在读完本文的理论部分后再去看笔者另一篇应用了PCA的关于人脸识...
原创
1500阅读
0评论
1点赞
发布博客于 3 年前

DP动态规划--例题Decode Ways 、 Longest Palindromic Substring详解

1题目:A message containing letters from A-Z is being encoded to numbers using the following mapping:'A' -&gt; 1'B' -&gt; 2...'Z' -&gt; 26Given a non-empty string containing only digits, deter...
原创
77阅读
0评论
0点赞
发布博客于 3 年前

总结mysql易错点

一:当group by 与聚合函数配合使用时,功能为分组后计算select count(id)from employee group by id当group by 与having配合使用时,功能为分组后过滤select count(id)from employee group by idhaving count(id)&gt;2当group by 与聚合函数,同...
原创
166阅读
0评论
0点赞
发布博客于 3 年前

python 深copy 浅copy 解释+Palindrome Partitioning例子

先给出一个例题:也可以先看后面给出的小鸡例子Given a string s, partition s such that every substring of the partition is a palindrome.Return all possible palindrome partitioning of s.Input: "aab"Output:[ ["aa",...
原创
131阅读
0评论
0点赞
发布博客于 3 年前

回溯dfs,bfs模板总结

做下笔记:BFS和DFS其实是两种不同遍历图的方式,前者是一层一层遍历,正是因为这个特性,它的一个应用就是可以用来找最短路径后者是一条路走到黑的方式,它的应用就是利用递归进行回溯遍历,得到所有组合情况,下面分开介绍:注意:1 两者其实都可以用来遍历找到所有路径(组合所有的情况),只不过由于BFS特殊遍历方式,可以用来解决找最短路径这一问题,由于DFS的回溯特性常用来在找所有组合情况这一...
原创
1496阅读
0评论
3点赞
发布博客于 3 年前

Roman to Integer(python)

Roman numerals are represented by seven different symbols: I, V, X, L, C, D and M.Symbol ValueI 1V 5X 10L 50C 100D ...
原创
200阅读
0评论
0点赞
发布博客于 3 年前

spark millib 推荐模型 +python

首先数据集下载:http://files.grouplens.org/datasets/movielens/ml-100k.zip下载好后解压,里面有几个比较重要首先是u.user 记录着用户的信息u.data记录着用户对其看过的电影的评价u.item记录的便是电影的信息----------------------------------------------------...
原创
647阅读
0评论
0点赞
发布博客于 3 年前

Hive 安装配置

首先要确保安装了Hadoop和mysqlHadoop安装参考:https://blog.csdn.net/weixin_42001089/article/details/81865101mysql安装参考:https://blog.csdn.net/weixin_42001089/article/details/82106723下载:http://mirror.bit.edu.cn...
原创
111阅读
0评论
0点赞
发布博客于 3 年前

spark入门框架+python

目录:简介pysparkIPython Notebook安装配置spark编写框架:首先开启hdfs以及yarn1 sparkconf2 sparkcontext3 RDD(核心)4 transformation(核心)          5 action(核心)当然也可以指定运行py程序 简介: 不可否认,spark是一种大数据框架,...
原创
12485阅读
0评论
7点赞
发布博客于 3 年前

ubuntu18.04安装spark(伪分布式)

在安装spark之前,首先需要安装配置Hadoop,这个就不做详细介绍了,可以参看博主的另一篇:https://blog.csdn.net/weixin_42001089/article/details/81865101######################################################################################...
原创
8759阅读
2评论
5点赞
发布博客于 3 年前

SQL安装,pymysql及详细例子教程

本文首先是在ubtunu系统上安装mysql,然后总结了一下基本的mysql命令,并通过小例子实践了一下,最后简单介绍了一下python的pymysql模块安装:首先安装mysql服务端sudo apt-get install mysql-server安装mysql客户端:sudo apt-get install mysql-clientsudo apt-get inst...
原创
901阅读
0评论
1点赞
发布博客于 3 年前

python 关于Hadoop的框架

hadoop的核心就是hdfs和mapperreducerpython都有对应的框架,下面分开说:(1)调用hdfs的python API相关的包有很多,这里介绍一下hdfs,安装很简单pip install hdfs使用的时候:from hdfs import * client = Client("http://localhost:50070") 那么之后...
原创
1394阅读
0评论
1点赞
发布博客于 3 年前

ubuntu18.04安装Hadoop

安装部分参考https://blog.csdn.net/qjk19940101/article/details/70544197,这里只是改动了部分和部分填充并进一步说明:首先更新apt包:sudo apt-get update安装SSH server:sudo apt-get install openssh-server配置SSH:ssh localhoste...
原创
25680阅读
9评论
19点赞
发布博客于 3 年前

ubuntu连不上网解决

ubuntu突然连不上网络了,由于内存卡爆了,造成网络中断.使用ifconfig查看后只有lo解决方案:​sudo service network-manager stopsudo rm /var/lib/NetworkManager/NetworkManager.state sudo service network-manager start​参考:htt...
转载
4527阅读
4评论
2点赞
发布博客于 3 年前

ubuntu18.04 anaconda安装tensorflow

大前提:tensorflow只支持64位可以使用:sudo uname --m参看如果是x86_64就是64如果是i686就是32,如果是32,那就重装64的吧,再进行如下:64位下载地址:https://www.ubuntu.com/download/desktop/thank-you?country=CN&amp;version=18.04.1&amp;archite...
原创
5858阅读
5评论
2点赞
发布博客于 3 年前

ubuntu 安装后一些简单配置

本文是在VM 虚拟机上安装的ubuntu(18.04)64位下载地址:https://www.ubuntu.com/download/desktop/thank-you?country=CN&amp;version=18.04.1&amp;architecture=amd64或者:https://pan.baidu.com/s/1ty72uH9Ho4FQqFxenaQ_gA 密码:...
原创
442阅读
0评论
0点赞
发布博客于 3 年前

Scala安装(Failed to initialize compiler: object java.lang//Error: could not find java.dll Error:解决)

要是看报错解决方案,直接跳到结尾首先要确保安装了jdk,可以测试一下:########################################################################################如果没有安装,要先去下载安装:https://www.oracle.com/technetwork/java/javase/downl...
原创
602阅读
0评论
0点赞
发布博客于 3 年前

Scala安装包

Scala开发spark语言, Scala的 安装包
zip
发布资源于 3 年前

DRL---------------Actor-Critic/DDPG

从名字就可以看出其是PG(关于什么是PG,可以参看https://blog.csdn.net/weixin_42001089/article/details/81478628)的升级版首先说一下Actor-Critic(AC),之前所说的PG是在一个游戏回合结束之后才更新PG中DL的网络参数的。而AC主要就是看不惯这一点,他就是要改变这一现状,即实现单步更新的壮举。还有一点就是输出的不再是一些...
原创
2943阅读
3评论
3点赞
发布博客于 3 年前

DRL------------Poilcy Gradients

继上篇的DQNhttps://blog.csdn.net/weixin_42001089/article/details/81448677之后,这里说一下PG(Poilcy Gradients),它是DRL另一大家族,先来谈一下它出现的背景。这要追溯到DQN的来源,DQN的出现是因为有些场景状态数过多导致Q表行数过大,为了解决这一问题即通过神经网络近似了Q值函数(value function)...
原创
355阅读
0评论
0点赞
发布博客于 3 年前

DRL---------DQN详解

总结一下DQN.在传统的强化学习中,例如Q_learning以及Sarsa都需要一张由状态S以及行为A组成的Q表,行为的种类一般较少,比如常见的前进后退两种或上下左右四种等,也就是Q表的列一般还好,可是状态的话就不一定了,有些场景的状态多到可怕,就比如围棋等等,也就是Q表的行数过多,导致的结果就是难以维护如此大的一张Q表。现在假设有一个函数 f(x)如果输入状态S就可以得到每个行为的Q...
原创
4119阅读
2评论
5点赞
发布博客于 3 年前

Reinforcement Learning(强化学习)Sarsa/Q_learning

在说这两种算法之前,先说一下:蒙特卡罗的方法(MC)和动态规划的方法(DP) 蒙特卡罗方法利用经验平均估计状态的值函数即:这里的是状态后直到终止状态所有回报的返回值,也就是要得到实验结束才可以进行更新,这样的话太慢。 动态规划说的是可以用后继状态的值函数来估计当前的值函数即这里的和如果有模型的话就可以根据当前的通过一个策略(这个策略在强化学习中一般就是选取具有最大奖励值...
原创
1449阅读
0评论
1点赞
发布博客于 3 年前

pythin threading 剖析

进程是正在运行的程序实体,并且包括这个运行的程序中占据的所有系统资源,一个进程可以并发多个线程,多线程可以提高执行的效率,就是说一个任务分工给多人去完成,但是这是建立在两个线程干的事情类别相差较大(就是I/O操作及cpu操作),否则有的时候效果不是很明显。,除此之外还有就是这些线程之间的顺序又是怎么协调的呢?本文从三大部分进行介绍,(1)首先介绍一下,查看和当前线程有关的属性的一些方法...
原创
269阅读
0评论
1点赞
发布博客于 3 年前

linux Anaconda安装

关于配置出python的vim可以参考https://www.cnblogs.com/linxiyue/p/7834817.html首先可以去官网下载墙后可以选择镜像https://repo.continuum.io/archive/index.html要下载相应的版本,就是要看linux是几位的uname -a如果x86_64是64,i686表示32位机器下载好后进行安装...
原创
908阅读
0评论
0点赞
发布博客于 3 年前

tensorflow word2vec demo详解

word2vec有CBOW与Skip-Gram模型CBOW是根据上下文预测中间值,Skip-Gram则恰恰相反本文首先介绍Skip-Gram模型,是基于tensorflow官方提供的一个demo,第二大部分是经过简单修改的CBOW模型,主要参考:https://www.cnblogs.com/pinard/p/7160330.html两部分以####################...
原创
6685阅读
6评论
10点赞
发布博客于 3 年前

神经网络验证码识别

主要参考:(1)https://www.bilibili.com/video/av20542427/?p=1              : (2)https://blog.csdn.net/jiongnima/article/details/78337783?locationNum=8&amp;fps=1 根据(2)博主的规划,笔者已经建立结构如下(文章结尾附上完整代码:主要来源(1)...
原创
3640阅读
0评论
2点赞
发布博客于 3 年前

tensorflow中tfrecord数据操作

前言:为了更加展示tfrecord数据的相关操作,笔者后续又写了一个实践的简单例子进一步解释,具体可以看:https://blog.csdn.net/weixin_42001089/article/details/90236241正文:tfrecord数据文件是一种将图像数据和标签统一存储的二进制文件,能更好的利用内存,在tensorflow中快速的复制,移动,读取,存储等.一...
原创
8987阅读
5评论
6点赞
发布博客于 3 年前

github上传项目

(1)首先,添加项目名称(比如tf)然后就会得到类似git@github.com:xxxxxxxxxxxxx/xxxxxxxxxxxx.git(2)去到要上传的文件夹下,打开Git bash here输入 git clone git@github.com:xxxxxxxxxxxxx/xxxxxxxxxxxx.git就是把github上面的目录克隆到本地,执行完后本地就会多出一个...
原创
135阅读
0评论
0点赞
发布博客于 3 年前