coolerzZ-CSDN博客

原创 nlp中文常用词整理

大概300多万，词典结构为：词语\t词性\t词频。链接: 点我密码: 11km

2021-10-25 10:05:31 1771

原创 docker 启动tensorflow容器使用宿主机显卡驱动问题

容器启动：docker run -it --name xxx --gpus all tensorflow/tensorflow:1.10.0-gpu-py3 /bin/bash—gpus all 可能容器会启动失败，报错：docker: Error response from daemon: could not select device driver “” with ...在确认宿主机nvidia-smi输出没问题后，主要问题可能是由于未安装： nvidia-container-too

2021-05-26 14:46:44 757

原创图像cv-车辆识别-负样本

链接在此提取码：70sg共9k张，黑白图像，多为道路

2021-02-25 14:47:14 531

原创在指定的anaconda环境中安装特定的包

1.切换到指定anaconda环境：conda activate tensorflow2(可能会出现Your shell has not been properly configured to use 'conda activate'.这时使用 conda deactivate 退出虚拟环境，然后重新进入即可)如图所示，表示成功2.安装指定包，这里以redis为例pip install redis==2.10.6pip install redis-py-cluster==1.3.5.

2020-12-21 10:26:33 1631

转载 LSTM如何解决梯度弥散和爆炸问题

之前看了很多讲LSTM优点的，但是几乎没有一篇能让我解开心中的疑惑：LSTM究竟怎么解决梯度弥散的？直到看到这篇文章“苏剑林. (2020, Nov 13). 《也来谈谈RNN的梯度消失/爆炸问题》[Blog post]. Retrieved fromhttps://kexue.fm/archives/7888”，个人认为这是我看到的第一篇讲清楚LSTM解决梯度弥散机制的文章，特此记录，同时感谢大佬@苏剑林！原文地址：https://kexue.fm/archives/7888...

2020-12-03 11:04:16 5413 1

原创 Fm算法个人理解小记

从开始接触推荐相关的内容以来，无论是主流的工业应用还是各种博客科普教学，Fm算法始终是推荐这条路上绕不过的重要节点。因为个人水平有限，始终对于Fm算法的理解都停滞与表面，别人说Fm算法是对LR的升级，是对MF的发扬光大，但是就我自己来说，始终没有理解Fm算法真正的内核所在，或者说的具体一点，就是Fm怎么做到对用户/物品进行向量表示。俗话说读书百遍其义自见，但是书读百遍，不用心去理解问题，直接看答案会导致你对答案里的方法、技巧根本不能理解，更不要提答案是怎么解决问题的。对于Fm的一些想法，特此记录

2020-11-25 12:04:07 215

原创 anaconda直接访问历史发布的所有版本包

anaconda直接访问历史发布的所有版本包进行下载：https://repo.anaconda.com/archive/特此记录。

2020-11-18 12:01:45 428

转载 mapreduce程序的运行流程

看了很多博客，个人感觉唯有这篇博客对小白来说讲的最清楚，特记录于下：原博客地址：点我（1）一个 mr 程序启动的时候，最先启动的是 MRAppMaster， MRAppMaster 启动后根据本次job 的描述信息，计算出需要的 maptask 实例数量，然后向集群申请机器启动相应数量的maptask 进程（2） maptask 进程启动之后，根据给定的数据切片(哪个文件的哪个偏移量范围)范围进行数据处理，主体流程为： A、利用客户指定的 inputformat 来获取 Record...

2020-09-24 08:50:46 406

原创 sql percentile求分位数记录

sql 中percentile求分位数时，如果出现null的时候，该方法会直接忽略null，在剩下的数中求分位数。例如 null，null，3,4,5,6,7 的中位数是 5，上四分位数是4，下四分位数是6

2020-09-22 14:19:44 5559

转载关于LSTM解决梯度弥散爆炸问题解析

转自知乎@Towser 原链接“LSTM 能解决梯度消失/梯度爆炸”是对 LSTM 的经典误解。这里我先给出几个粗线条的结论，详细的回答以后有时间了再扩展：1、首先需要明确的是，RNN 中的梯度消失/梯度爆炸和普通的 MLP 或者深层 CNN 中梯度消失/梯度爆炸的含义不一样。MLP/CNN 中不同的层有不同的参数，各是各的梯度；而 RNN 中同样的权重在各个时间步共享，最终的梯度 g = 各个时间步的梯度 g_t 的和。2、由 1 中所述的原因，RNN 中总的梯度是不会消失的。即便梯度.

2020-06-29 11:12:33 1149

转载深度学习基础——训练集，验证集和测试集（转载）

转自孙高飞，「发表于 TesterHome 」原始链接点我前言我们在模型训练的时候通常会将我们所得到的数据分成三部分。分别是training set， dev set(也叫validation set)和 test set。在我们的模型调研过程中，他们分别起着不同的作用。training set用来训练模型， dev set用来统计单一评估指标，调节参数, 选择算法。 test set 则用来在最后整体评估模型的性能。三者之间的关系与作用如上图，假设我们有一份数据，会将它按一定的规则

2020-06-23 08:32:21 2119

转载深度学习中优化函数详解

看到一篇非常不错讲优化函数的博客，怕以后找不到，所以做个记录原文地址：地址作者：Maddock（给大神点个赞！）（一）一个框架看懂优化算法“说到优化算法，入门级必从 SGD 学起，老司机则会告诉你更好的还有AdaGrad / AdaDelta，或者直接无脑用 Adam。可是看看学术界的最新 pape...

2020-04-23 15:27:50 1288

原创 pycharm调用tensorboard笔记

anaconda打开命令窗口输入命令tensorboard --logdir C:\\xx\\autograph地址为存放日志路径

2020-04-08 14:45:25 653

原创 linux中nuhup笔记

nohup sh runshell.sh > log.log 2>&1 & tail -f log.log

2020-04-07 11:29:12 477

原创 T检验显著性检验根据t值计算p值

使用scala进行T检验，独立样本T检验（independent samples t-test）中的异方差公式如下：详细参考内容见链接t值根据均值、自由度、方差可以直接计算，由t值计算p值利用了java的math3，maven配置添加下面内容即可：<dependency> <groupId>org.apache.commons</groupI...

2020-03-17 09:09:55 13314 8

原创 scala windows本地配置lzo读取所需相关组件

具体内容如上图，包括gplcompression.dll，lzo2.dll（已经编译好），hadoop-lzo-0.4.21-SNAPSHOT.jar这个是csdn上下载的，那个老哥下载需要积分，这里分享出来。传送门芝麻开门：xus5...

2020-01-13 08:44:46 594 2

原创中国十个主要城市10-18年的统计年鉴

主要包括：安徽、北京、广东、河南、湖南、上海、深圳、天津、浙江、重庆个人整理，可能出现错误，请各位使用时注意。仅供学习使用。传送门芝麻开门：nbym...

2019-12-23 08:41:36 521

原创 idea_spark配置maven小知识点

https://mvnrepository.com/search?q=sparkpom文件中各个版本对应情况如果这块配置了，hosts文件也需要配置集群的节点，否则即使跑本地文件时也会试图先连接集群，从而报错。...

2019-08-14 09:42:15 244

原创解决windows平台pycharm中pyspark运行出现乱码问题

问题如图：解决方法：global encoding改为gbk

2019-06-06 16:37:24 2755

转载 DBSCAN注意事项

DBSCAN共包括3个输入数据：数据集D，给定点在邻域内成为核心对象的最小邻域点数：MinPts,邻域半径：Eps，其中Eps和MinPts需要根据具体应用人为设定。(1)Eps的值可以使用绘制k-距离曲线(k-distance graph)方法得当，在k-距离曲线图明显拐点位置为对应较好的参数。若参数设置过小，大部分数据不能聚类；若参数设置过大，多个簇和大部分对象会归并到同一个簇中。...

2019-05-14 09:45:58 1527

原创 python辣鸡小函数

#datetime.time()转换seconddef t2s(t): h = t.hour m = t.minute s = t.second return int(h) * 3600 + int(m) * 60 + int(s)#second转换成时间def s2t(seconds): m, s = divmod(seconds, 60) ...

2019-04-26 17:45:57 312

原创 pyspark环境的配置

这两天配置pycharm中的pyspark环境简直难受，在做测试的时候写出文件时一直报错py4j.protocol.Py4JJavaError: An error occurred while calli.....然后各种网上搜索问题还是没有解决，遂决定从头配置spark环境，根据这个博主的指导配置，添加spark、hadoop的环境变量，最终问题解决，ps：配置完如果pycharm运行还出错...

2019-04-15 14:14:08 993

原创 pyspark注意事项

PYSPARK Caused by: java.io.IOException: CreateProcess error=5, 拒绝访问。或者error=2添加 PYSPARK_PYTHON C:\WP\software\Anaconda\envs\Python3.5\python.exe 路径与 python interpreter对应SPARK_HOME D:\spark-1.6.0-bin...

2019-04-08 11:12:02 586

原创《大数据智能》刘知远 pdf资源

链接甩到这里，省着大家花钱去下载。提取码：z6by

2019-01-30 16:47:01 1085 1

原创 spark入门之scala学习笔记

之前的基本语法包括循环什么的就不写了，直接从定义函数开始。一、定义函数scala中定义函数需要定义函数的名字、参数和函数体。第一个示例函数：def sayHello(name:String,age:Int) = { if (age >= 18) {printf("hi, $s,u r bitch!!!\n",name);age} else { printf("...

2019-01-30 15:42:44 379

原创 spark学习

首先认识spark，不严格的讲，spark是用来替代Hadoop架构中计算框架的，主要是用来优化替代mapreduce和hive中的部分功能spark来替代hive的查询引擎站在集群资源的角度：（yarn）Resource manager是主，Node manger是从站在程序的角度：Driver是主，Executor是从driver包含dag...

2019-01-10 17:47:03 270

原创命名实体识别conll 数据集

为啥这种数据集还藏着掖着，花了1块5，现在把资源分享出来数据集详情看了一下好像12的数据有问题不能用，其他的应该没问题链接：芝麻开门密码：i0nq...

2018-10-24 10:30:19 13362 23

原创 Trans 系列中 Mean rank、Hit@10个人理解

最近接触了一些Trans系列的论文，其中的两个评测指标 Mean rank、Hit@10看了半天没弄清楚，网上查了查也查不到解释，估计是大腿们没想到还有人在这块遇到障碍吧。下面是自己的一些理解：1.先说Mean rank首先对于每个 testing triple，以预测tail entity为例，我们将（h,r,t）中的t用知识图谱中的每个实体来代替，然后通过fr（h,t）函数来计算...

2018-08-15 15:47:58 18921 9

原创《Unsupervised Domain Adaptation with Random Walks on Target Labelings》阅读理解

《Unsupervised Domain Adaptation with Random Walks on Target Labelings》这篇文章用随机漫步的方法来改进无监督域适应算法。本文的摘要中写道：“We cast domain adaptation as the problem of finding stable labels for target examples”，文章将域适应的...

2018-08-02 14:21:36 583 2

原创 Embedding Transfer for Low-Resource Medical Named Entity Recognition: A Case Study on Patient ...

preinitialization concatenation

2018-07-24 17:35:42 358

原创《Dropping Networks for Transfer Learning》结论

《Dropping Networks for Transfer Learning》这篇文章前面看了一小部分，综合之前看过的论文，个人有个感觉就是真正的国外学者的英语确实更难一些（读起来真的是费劲，笔者的渣渣英语水平被轰成渣）。所以这里具体内容就不写了，就写一下结论部分。结论一共是4条：1.相对于Bagging神经网络或单神经网络而言，Dropping网络的模型平均特性显示出显著的优势，...

2018-06-04 09:35:26 316

原创阅读理解《Better and Faster: Knowledge Transfer from Multiple Self-supervised Learning Tasks via Graph D》

文章摘要提出要解决Video representation learning问题现存的方法存在两个局限：1）仅仅局限在一个任务，忽视了不同任务特征的补充，因此导致了结果的次优。2）高额的计算和记忆消耗阻碍了在现实情境的应用。而本篇文章提出了一个基于图形的提取框架来处理这些问题：1）提出了 logits graph、 representation graph 来从多个自我监督任务中迁移知识...

2018-05-29 17:28:38 1147

原创关于《Domain Adaptation with Adversarial Training and Graph Embeddings》的理解

使用对抗学习和图像嵌入的域适应学习本文将基于对抗学习和图像嵌入的域适应运用于危机状态下的舆情分析，主要处理的前提是：源域有labeled的数据和unlabeled的数据，而目标域unlabeled。模型则包含基于域适应的对抗学习和基于图像的半监督学习。数据来源是 two real-world crisis datasets collected from Twitter。作者做这个模型的立意是为了能...

2018-05-23 17:32:34 2040

转载识花模型代码理解

import osimport numpy as npimport tensorflow as tffrom tensorflow_vgg import vgg16from tensorflow_vgg import utilsdata_dir = 'flower_photos/'contents = os.listdir(data_dir)classes = [each for e...

2018-05-07 13:52:36 906

原创迁移学习（散乱知识）

1.sess.run() 中的feed_dict:feed_dict的作用是给使用placeholder创建出来的tensor赋值 2.StratifiedShuffleSplit函数的使用官方文档用法：from sklearn.model_selection import StratifiedShuffleSplitStratifiedShu...

2018-05-03 14:09:23 344

原创机器学习实战---------Logistic回归

看了半个礼拜的朴素贝叶斯，依然没有理解，想想还是跳过先看逻辑回归吧。前面巴拉巴拉的话就不说了，下面直接贴代码。5.2.2 训练算法from math import *from numpy import *import osos.chdir('D:\xx\machinelearning\MLiA_SourceCode')def loadDataSet(): data

2018-01-29 16:27:38 322

原创 MySQL学习笔记

2018.1.25一、主键的最好习惯：1.不更新主键列中的值2.不重用主键列的值3.不在主键列中使用可能会更改的值。二、不能部分使用DISTINCTDISTINCT关键字应用于所有列而不仅仅是前置它的列。如果给出SELECT DISTINCT xx，yy，除非指定的两个列都不同，否则所有行都将被检索出来。三、ORDER BY字句的位置在给出ORDER BY字句时

2018-01-25 17:36:24 539

原创机器学习实战------决策树

3.1决策树的构造3.1.1信息增益面对机器学习boss二代目——决策树，大多人应该不陌生，决策树的一些基本概念就不表了，下面直接贴上计算数据集的香农熵的代码：from math import logdef calcShannonEnt(dataSet): numEntries = len(dataSet) labelCounts = {} for fe

2018-01-22 16:01:53 542

空空如也

空空如也