云端潜行-CSDN博客

原创 Fasttext应用

Fasttext查看了论文https://zhuanlan.zhihu.com/p/32965521n折交叉检验是否需要重新训练模型？待学习

2020-07-26 23:41:45 210

原创 Task3 基于机器学习的文本分类

TfidfVectorizer参数探究ngram_rangemax_features

2020-07-25 22:29:06 171

原创数据分析（一）

label distribution是一个不均衡的数据集，需要做数据预处理Sentence length distribution句子的长度也很极端，有很多的outliers，需要对过长的数据进行舍弃或者切割。

2020-07-22 23:52:06 207

任务这次任务是一个多分类问题。评测标准f1_score，不直接用准确率可能是为了在unbalance的数据集中，更好地评测模型思路特征抽取DLWord2vecGloveBertMLTF-IDF分类器SVMXGboost数据分析特征是由数字表示的，不能直接使用预训练模型，Bert==GG。最简单的特征抽取就是基于统计的TF-IDF，可以尝试自己训练Glove。统计了一下label的分布，差距很大，鉴于评测用的是F1-score。就要对数据进行balance操

2020-07-21 22:21:49 173

原创 Word Sense Disambiguation

1 IntroductionI build a basic bi-lstm model, bi-lstm + attention model and a multy task learning model describe in the paper and a model which Incorporates glosses information using memory network to...

2019-09-11 03:12:08 1427 1

原创 Model_WIR

There are two main topics here. One is the basic models, the other is model seletion part.Naive bayes# fit the training dataset on the NB classifierNaive = naive_bayes.MultinomialNB()Naive.fit(T...

2019-09-10 19:29:19 147

原创 Preprocessing

clean_contextI substitute some special symbols using regular expression and split by predefined symbols.Parametersthe input is a string.output is a list whose element is a token.Exampleinput: “E...

2019-09-10 18:59:14 247

原创 tf.slice

功能如果把Tensor看成一个高维数组的话，slice就是返回它的一个子集参数tf.slice( input_, begin, size, name=None)用例t = tf.constant([[[1, 1, 1], [2, 2, 2]], [[3, 3, 3], [4, 4, 4]], ...

2019-03-09 05:55:58 130

原创 tf.lin_space

功能Generates values in an interval.参数tf.linspace( start, stop, num, # umber of values to generate. name=None)用例tf.linspace(10.0, 12.0, 1, name="linspace") => [ 10.0]tf.li...

2019-03-09 05:43:42 397

原创 tf.where

介绍参数形式介绍最简单的用法，解释返回值的含义根据官方API文档，补充更多的调用形式参数tf.where( condition, x=None, y=None, name=None)返回值类型x = tf.constant([29.05088806, 27.61298943, 31.19073486, 29.35532951])ind...

2019-03-09 05:37:14 359

原创 tf.reshape

官方文档链接https://www.tensorflow.org/api_docs/python/tf/reshape调用tf.reshape( tensor, shape, name=None)It means that tf.reshape produces a new tensor.x = tf.constant([29.05088806, 27.61...

2019-03-09 05:02:22 163

原创 First order logic——Inference

区分Inference rule 和 Inference algorithm的区别理解各个Inference rule的soundness 和completeness的关联算法独立性Knowledge base可能因为基于不同的逻辑规则而不同，比如Propositial logic 和 First order logic的语法，语义都不相同Inference ruleMode...

2019-01-20 03:51:51 719

原创 First order logic——Writing FOL

translate1. 分清楚逻辑主次场景一：Let Gov , Univ, Lca, Bill be constant symbols, and let prof(x),stud(x),unhappy(x),cut fund(x,y),fail exam(x,y) be unary and binary predicate symbols.If professors are unhap...

2019-01-20 03:33:44 639

原创（一）Colab入门

Colab优点免费使用方便，无需在本地安装TensorFlow，keras等深度学习框架配置install Keras!pip install -q keras关联你自己的Google Drive账号，把Google Drive当成你存放数据和代码的仓库from google.colab import drivedrive.mount('/content/drive/')...

2018-12-30 18:13:31 2171

原创 Study plan 2018 Fall

Artificial Intelligencehomepage : https://www.dis.uniroma1.it/~nardi/Didattica/AI/index-new.htmlcomplement resources：Main topics: https://inst.eecs.berkeley.edu/~cs188/fa18/Knowledge Representati...

2018-12-16 16:19:38 475

原创函数间隔和几何间隔

问题描述：求一个任意点，到一个超平面的距离超平面表示在线性代数中，一个超平面可以用下式表示 y(X)=WTX+w0\ y(\mathbf{X}) = \mathbf{W}^{T}\mathbf{X} + w0 y(X)=WTX+w0证明W是超平面的法向量在超平面上任取俩个点Xa，Xb。因为 y(Xa)=y(Xb)=0\ y(\mathbf{Xa}) = ...

2018-10-26 04:42:33 1831

原创 sklearn文档查询

以CountVectorizer类为例，总结一下怎么查询sklearn文档Google阅读API，了解参数含义优点：参数有着详细的说明缺点：没有详细的用例，不知道该如何使用查看用例代码结合API，理解各个函数用法...

2018-08-17 21:38:15 887

原创反向传播算法

反向传播算法的原理很简单，只涉及chain rule和求导，但是在实际编程中，需要考虑到向量化后，会涉及矩阵求导。矩阵的求导只是提供了理论支持，实际实现中又使用了额外的技巧。资源总结：首先观看李宏毅老师的Backpropagation课程，了解为什么这个算法取名为反向传播，怎么传播的优点：例子详细，容易理解视频地址：https://www.bilibili.com/v...

2018-08-07 14:25:11 178

原创堆排序

本文基于普林斯顿大学的《算法》，在这里不描述算法本身，补充几个在使用该算法时需要注意的细节特点时间复杂度：O(2NlgN + 2N)空间复杂度：O(1)思路确定堆节点标号系统实现sink或者swim建堆利用 sink进行排序Note1：sink函数的声明 public void sink(char[] input, int n, in...

2018-08-07 11:08:21 161

原创判断字符数组中是否所有的字符都只出现过一次

// 要求：在保证额外空间复杂度为O(1)的前提下，使得时间复杂度最低 // 思路：先排序，再遍历数组 // 考点：各个排序算法的时间，空间复杂度——&gt;堆排序 public boolean isUnique(char[] chas) { if (chas == null || chas.length == 0) { ...

2018-06-18 21:49:25 349

原创添加最少字符使字符串整体都是回文字符串

public int[][] getDP(char[] str){ int[][] result = new int[str.length][str.length]; for(int i = str.length - 1; i >= 0; i--) { for(int j = i; j < str.length; j++) { ...

2018-06-18 20:58:02 989

原创回文最小分割数

// 从后向前 public int myMinCut(String str) { if(str == null || str.length() == 0) return 0; char[] input = str.toCharArray(); int len = input.length; //记录了input[i~j...

2018-06-18 20:55:50 349

原创 Stack

参数axis的含义 numpy.stack(arrays, axis=0, out=None)[source]axis决定了往哪个维度进行堆叠，根据上述规律，就能给出原k个n维数组中元素坐标和堆叠后坐标的对应关系被堆叠对象的维度是（2，3）因为axis=1，且是由4个数组堆叠而成所以堆叠后对象的维度为（2，4，3）15在原数组的坐标为（1，1），b又是排序为2...

2018-05-27 22:43:23 1126

原创 hashable

应用给定一个二维数组arr，arr中每个元素是一个一维的数组，去除其重复的一维数组解法一：In [48]: arr = np.array([num[:3],num[:3],num[1:4]])In [49]: arrOut[49]: array([[0, 1, 2], [0, 1, 2], [1, 2, 3]])In [50]: tmp ...

2018-05-27 19:21:02 509

原创 XGBoost

回顾决策树的分类能力由叶子节点上的条件概率分布决定决策树的内路径只决定了特征空间的划分情况，即给定一个样本xi，最终会落在哪个节点思考：提升的定义提升的框架思路：在构建好的k-1棵决策树的基础上，构建第k棵决策树符号说明：这里需要解释一下俩棵决策树的加权和的含义权值a1,a2取值不同，首先决定了不同的特征空间的划分，统计后得到不同的条件...

2018-05-22 07:36:33 1294

原创 Cost function

cost function的形式cost function的推导满足以下过程： 1. 认为error 满足某个分布，写出样本点xi的样本的error 2. 认为样本点是相互独立的，推导出其对数似然函数 3. 求偏导，是得导函数为0，分离常数部分，得到误差的表达形式e.g. 线性回归中关于MSE的推导：https://nk2000.github.io/2018/05/16/Linea...

2018-05-22 07:32:22 3169

原创 Logistic Regression

模型定义特征 x：m*n label y：m*1 不同的x, 参数对应一个不同的二项分布这些二项分布可以通过统计求得改进不按照x是否相同，来统计其二项分布的分布律，而每一个样本点都看做一个独立二项分布这样的特点就是这样的二项分布只有俩种，分别为并且能合并表示为目标函数——交叉熵小目标：对于每一个样本点，分别求出一个分布，使得俩者分布差距最小模...

2018-05-22 07:29:39 207

原创 Linear Regression

Loss Function理论基础：中心极限定理误差符合高斯分布 - 公式推导解释了为什么损失函数是这个形式模型求解意义：理论上推导出模型可解，但对矩阵求导，计算量很大，实际不采用对目标函数求梯度使梯度为0 为什么能添加扰动能防过拟合？通过实践可得，当n维特征向量映射成更高维的特征时，最后求解得到的参数值都很大，因此希望在原los...

2018-05-22 07:22:54 204

原创 Neural Network

PerceptronExpressiveness（and，or，not，xor）and or not represent anything：可以表达由and，or，not组合成的任意逻辑表达式e.g. XOR 结论： 1. 感知机是线性的 2. perceptron can represent anything：可以表达由and，or，not组合成的任意逻辑表达式Learning

2018-05-05 17:23:35 244

原创 Decision Tree

RepresentationLearningExpressiveness（and，or，xor）size of hypothesis set 结论： - hypothesis space is very expressive because there’s lots of different functions that you can represent - should have some

2018-05-05 17:14:12 128

原创 BFS

Hint:图的邻接表存储：LinkedList<Integer> adj[] = new LinkedList[v];for (int i=0; i<v; ++i) adj[i] = new LinkedList();Java中QueueLinkedList<Integer> queue = new LinkedList<Integer>();代码实现——geeksforgeeksc

2018-05-04 21:59:07 139

原创环检测——并查集

先描述思路，再列出我自己的算法实现，最后列出geeksforgeeks上的代码，进行比较分析思路在做并查集时，每次对节点i和节点j做合并时，分别会在parent数组中找到他们的根节点如果根节点不同，则做合并而如果指向同一个根节点，则意味着，存在环算法实现我的版本 int[] unionParent = new int[V]; int find(int node) {

2018-05-04 21:19:02 672

原创 DataFrame数据选择方式

选择方式选择行选择列选择区域筛选（条件选择）选择行形式 data[i : j] 切片：i, j 是数字，代表所取的行号，范围为[i, j)索引：i, j是行索引名，范围为[i, j]错误 data[k] 这样获取行数据都会报错，不管k是index值，还是代表某一行的行号切片In[60]:mydataOut[60]: a b

2018-04-09 13:51:36 708

原创模型评估

why use Training set用于检查过拟合对模型在一个独立数据集的表现How分离训练集&测试集 sklearn版本 3.17 3.18 包引入 from sklearn import cross_validation from sklearn.model_selection import train_test_split 函数调用 right-alig

2018-04-08 12:02:53 241

原创 KMP时间复杂度分析

比较过程分析比较次数比较次数：红色 + 蓝色蓝色部分是相比暴力求解，节省下的比较次数周期从比较次数可以看出，呈现 1 1 1 1 5 这样的周期一个周期内的比较次数：8周期长度：5周期个数：n/5比较总次数：周期个数 * 一个周期内额比较次数 = 1.8n 一般化结论： - 一个周期内的比较次数：1 * (M - 1) + M - 周期长度：M - 周

2018-03-16 11:52:57 19366

原创用Python玩转数据——week2

本地数据获取文文件的打开，读写和关闭件打开后才能进行读写为什么需要关闭? 因为Python可能会缓存写入的数据如果程序异常崩溃了数据就不能写入到文件中所以为了安全起见文件用完以后要养成主动关闭文件的习文件的打开格式file_obj = open(filename, mode='r', buffering=-1)mode为可选参数，默认值为rbuffering也

2018-03-14 18:21:46 180

原创用Python玩转数据——Week1

第一个Python程序运行方式 Shell方式文件方式模块是对象，并且所有的模块都有一个内置属性 name。一个模块的 name 的值取决于您如何应用模块。如果 import 一个模块，那么模块name 的值通常为模块文件名，不带路径或者文件扩展名。但是您也可以像一个标准的程序样直接运行模块，在这种情况下, name 的值将是一个特别缺省”main“。 IO 输入 va

2018-03-13 19:11:07 541

原创 LeetCode42. Trapping Rain Water

思路构建满足什么要求才会积水？必须存在一个左边界left，一个右边界right，且高度大于height[i]这里写图片描述需要明确对积水面积F[i]的定义：以高度height[i]为底，存在比height[i]高的左右界，围成的面积对于图一，明显F[i]就是满足该定义的一块积水面积对于图二： - F[1] 满足，其左右边界分别为0，4 - F[2] 满足，其左右边界为1，3 - F[3

2018-03-10 19:53:33 181

原创 LeetCode20. Valid Parentheses

思路构思针对这个题目，先想几组input进行分析输入input (()) 在从左到右遍历过程中input[0]在遍历到它时，无法知道它会和后面哪一个括号匹配因此需要把它先保存起来，但是如果存在一个右括号，它的匹配顺序又会是自右向左匹配的因此可以得出结论，可以凭借栈来完成这项要求 ()() 针对这种匹配情况，上述思路也能满足代码public bo

2018-03-10 10:50:08 139

原创 LeetCode32. Longest Valid Parentheses

思考构思首先针对括号匹配问题：借鉴LeetCode20那题的经验，我们可以想到借助栈，接下来就开始验证栈是否能解决该问题思路一考察第i位字符c如果c为左括号，把位置坐标i压栈如果c为右括号，对栈进行弹栈，得到index，i-index+1 就是匹配的长度验证对于(())，算法有效对于输入()()，算法无效需要针对第二种情况，重新构思思路二考察第i位字符c如果c为左括号，把位置坐标i

2018-03-10 10:47:56 138

空空如也

空空如也