2020年04月_热爱Coding

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创销量等大数值特征输入深度模型

一个特征的值如果是 100000、150000 这样的，怎么输入到模型里？比如这个特征就是销量？决策树直接输入，普通模型做下上下界截断然后做一些log或者sqrt的处理，大模型可以离散化，直接int离散化或者做log后离散化都行...

2020-04-29 17:23:47 273

原创 TensorFlow 的KL divergence的实现

def kl_for_log_probs(log_p, log_q): p = tf.exp(log_p) neg_ent = tf.reduce_sum(p * log_p, axis=-1) neg_cross_ent = tf.reduce_sum(p * log_q, axis=-1) kl = neg_ent - neg_cross_ent ret...

2020-04-28 19:17:08 3185

原创 Differentiable Reasoning over a Virtual Knowledge Base 代码

https://github.com/google-research/language/tree/master/language/labs/drkit

2020-04-28 16:28:49 402

原创 AutoPhrase 阅读笔记

论文名：Automated Phrase Mining from Massive Text Corpora摘要本文研究关键短语提取，研究无监督的，使用了通用知识库信息来做，使用了词性信息提升效果，引言Phrase mining的意思是短语（实体、关键词）提取，本文贡献：使用通用知识库的来构造正样本（应该就是用完全匹配的方式），然后训练一个分类器，然后用这个分类器的预测结果来减少负样本噪...

2020-04-28 15:25:52 3102

原创 BERT加速，BERT inference加速，BERT实用加速

从头预训练一个针对的那1个任务的3层BERT，保持预训练和inference时的一致性，速度加速4倍，精度不变。

2020-04-28 10:24:33 1195 2

原创 spark 2.2 只有1个worker在跑

partitions数量没设置，dataframe.repartition(100)

2020-04-27 14:42:14 896

原创 gitignore 刷新

https://stackoverflow.com/questions/38450276/force-git-to-update-gitignore

2020-04-15 17:03:39 343

tvars = tf.trainable_variables()var_list1 = [var for var in tvars if "bert" in var.name]var_list2 = [var for var in tvars if "bert" not in var.name]opt1 = tf.train.GradientDescentOptimizer(0.00001)...

2020-04-15 15:43:33 399

原创 spark，在左表右表都有重复数据的情况下，left join之后数据数量等于左表

给左表人工加一个id列，最后按这个id列distinct就行了。

2020-04-14 13:51:46 1194

原创 spark groupby之后再展开实例

import org.apache.spark.sql.{Row, SparkSession}object Test { def main(args: Array[String]): Unit = { val spark = SparkSession.builder.appName("Simple Application").enableHiveSupport().getOrC...

2020-04-14 12:27:48 971

原创 imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集

https://github.com/JerrikEph/Capsule4TextClassification/blob/master/data/downloadDataset.md

2020-04-10 15:25:36 4687

原创短文本分类数据集（英文）

https://opendata.stackexchange.com/questions/6080/data-sets-for-short-text-classification

2020-04-10 13:15:33 2105 2

原创 pycharm debug F8 slow / variable not show

Preference --> python debugger --> Gevent compatible勾选后重跑

2020-04-10 11:21:59 228 1

原创 tensorflow 构造对角线为0的矩阵，并mask

import tensorflow as tfsess = tf.Session()input = tf.ones([2,3,3])*2mask1 = tf.ones([3,3])mask2 = tf.diag(tf.ones([3]))mask = mask1 - mask2print(sess.run(mask))print(sess.run(input * mask))...

2020-04-09 11:47:14 1102

原创 tensorflow 构造对角线为1的矩阵，并mask

import tensorflow as tfsess = tf.Session()input = tf.ones([2,3,3])*2mask = tf.diag(tf.ones([3]))print(sess.run(mask))print(sess.run(input * mask))print结果：[[1. 0. 0.][0. 1. 0.][0. 0. 1.]][...

2020-04-09 11:40:26 2847

原创 ICLR 2020 ENERGY BASED MODEL 摘要速览

YOUR CLASSIFIER IS SECRETLY AN ENERGY BASEDMODEL AND YOU SHOULD TREAT IT LIKE ONEhttps://openreview.net/group?id=ICLR.cc/2020/Conference#accept-talk引言discriminative分类器表示为 p(y|x)，可以基于能量型模型把它重新推导成...

2020-04-09 10:38:24 511

原创矩阵分解的一些理解

attention matrix 是一个 [batch_size, sequence_len1, hidden_size] 的tensor和一个[batch_size, sequence_len2, hidden_size] 的tensor得到的[batch_size, sequence_len1, sequence_len2] 的tensor，反过来其实就是一个矩阵分解操作，[seque...

2020-04-03 15:01:26 343

原创 Structural Deep Clustering Network 摘要速览

https://arxiv.org/pdf/2002.01633.pdfClustering is a fundamental task in data analysis. Recently, deepclustering, which derives inspiration primarily from deep learningapproaches, achieves state-of-...

2020-04-01 10:31:38 747

stanford-corenlp-4.5.6.zip

https://nlp.stanford.edu/software/stanford-corenlp-4.5.6.zip

2024-03-12

huggingface的bert-base-chinese

https://huggingface.co/google-bert/bert-base-chinese pytorch和tensorflow都有

2024-03-05

huggingface的bert-base-uncased

https://huggingface.co/google-bert/bert-base-uncased pytorch和tensorflow都有

2024-03-03

TREC-6 文本分类数据集

https://www.tensorflow.org/datasets/catalog/trec

2024-02-22

chatglm3-6b的模型参数文件0/7

这个是除了7个大文件之外的所有小文件

2023-11-30

chatglm3-6b的模型参数文件6/7

2023-11-29

chatglm3-6b的模型参数文件5/7

2023-11-29

chatglm3-6b的模型参数文件4/7

2023-11-29

chatglm3-6b的模型参数文件7/7

2023-11-28

chatglm3-6b的模型参数文件3/7

2023-11-28

chatglm3-6b的模型参数文件2/7

2023-11-28

chatglm3-6b的模型参数文件1/7

2023-11-28

Deep (Convolution) Networks from First Principles by马毅老师

2023-09-26

NLPIR新闻语料库（2400万字）

1.解压缩后数据量为48MB，大约2400万字的新闻； 2.采集的新闻时间跨度为2009年10月12日至2009年12月14日。 3.文件名为新闻的时间；每个文件包括多个新闻正文内容（已经去除了新闻的垃圾信息）； 4.新闻本身内容的版权属于原作者或者新闻机构； 5.整理后的语料库版权属于www.NLPIR.org； 6.可供新闻分析、自然语言处理、搜索等应用提供测试数据场景；如需更大规模的语料库，可以联系NLPIR.org管理员。

2023-08-30

CLUE AFQMC 语义相似度数据集

蚂蚁金融语义相似度 Ant Financial Question Matching Corpus 数据量：训练集（34334）验证集（4316）测试集（3861）

2023-07-24

CLUE TNEWS 文本分类数据集

今日头条中文新闻（短文本）分类 Short Text Classificaiton for News 数据量：训练集(53,360)，验证集(10,000)，测试集(10,000)

2023-07-24

Linux-CentOS编译好的python3.8，解决了ssl相关问题

2023-02-17

MovieLens 20M Dataset

MovieLens 20M movie ratings. Stable benchmark dataset. 20 million ratings and 465,000 tag applications applied to 27,000 movies by 138,000 users. Includes tag genome data with 12 million relevance scores across 1,100 tags. Released 4/2015; updated 10/2016 to update links.csv and add tag genome data.

2022-05-31