- 博客(45)
- 收藏
- 关注
原创 Fasttext应用
Fasttext查看了论文https://zhuanlan.zhihu.com/p/32965521n折交叉检验是否需要重新训练模型?待学习
2020-07-26 23:41:45 173
原创 数据分析(一)
label distribution是一个不均衡的数据集,需要做数据预处理Sentence length distribution句子的长度也很极端,有很多的outliers,需要对过长的数据进行舍弃或者切割。
2020-07-22 23:52:06 176
原创 赛题理解
任务这次任务是一个多分类问题。评测标准f1_score,不直接用准确率可能是为了在unbalance的数据集中,更好地评测模型思路特征抽取DLWord2vecGloveBertMLTF-IDF分类器SVMXGboost数据分析特征是由数字表示的,不能直接使用预训练模型,Bert==GG。最简单的特征抽取就是基于统计的TF-IDF,可以尝试自己训练Glove。统计了一下label的分布,差距很大,鉴于评测用的是F1-score。就要对数据进行balance操
2020-07-21 22:21:49 151
原创 Word Sense Disambiguation
1 IntroductionI build a basic bi-lstm model, bi-lstm + attention model and a multy task learning model describe in the paper and a model which Incorporates glosses information using memory network to...
2019-09-11 03:12:08 1373 1
原创 Model_WIR
There are two main topics here. One is the basic models, the other is model seletion part.Naive bayes# fit the training dataset on the NB classifierNaive = naive_bayes.MultinomialNB()Naive.fit(T...
2019-09-10 19:29:19 127
原创 Preprocessing
clean_contextI substitute some special symbols using regular expression and split by predefined symbols.Parametersthe input is a string.output is a list whose element is a token.Exampleinput: “E...
2019-09-10 18:59:14 203
原创 tf.slice
功能如果把Tensor看成一个高维数组的话,slice就是返回它的一个子集参数tf.slice( input_, begin, size, name=None)用例t = tf.constant([[[1, 1, 1], [2, 2, 2]], [[3, 3, 3], [4, 4, 4]], ...
2019-03-09 05:55:58 115
原创 tf.lin_space
功能Generates values in an interval.参数tf.linspace( start, stop, num, # umber of values to generate. name=None)用例tf.linspace(10.0, 12.0, 1, name="linspace") => [ 10.0]tf.li...
2019-03-09 05:43:42 372
原创 tf.where
介绍参数形式介绍最简单的用法,解释返回值的含义根据官方API文档,补充更多的调用形式参数tf.where( condition, x=None, y=None, name=None)返回值类型x = tf.constant([29.05088806, 27.61298943, 31.19073486, 29.35532951])ind...
2019-03-09 05:37:14 331
原创 tf.reshape
官方文档链接https://www.tensorflow.org/api_docs/python/tf/reshape调用tf.reshape( tensor, shape, name=None)It means that tf.reshape produces a new tensor.x = tf.constant([29.05088806, 27.61...
2019-03-09 05:02:22 138
原创 First order logic——Inference
区分Inference rule 和 Inference algorithm的区别理解各个Inference rule的soundness 和completeness的关联算法独立性Knowledge base可能因为基于不同的逻辑规则而不同,比如Propositial logic 和 First order logic的语法,语义都不相同Inference ruleMode...
2019-01-20 03:51:51 675
原创 First order logic——Writing FOL
translate1. 分清楚逻辑主次场景一:Let Gov , Univ, Lca, Bill be constant symbols, and let prof(x),stud(x),unhappy(x),cut fund(x,y),fail exam(x,y) be unary and binary predicate symbols.If professors are unhap...
2019-01-20 03:33:44 588
原创 (一)Colab入门
Colab优点免费使用方便,无需在本地安装TensorFlow,keras等深度学习框架配置install Keras!pip install -q keras关联你自己的Google Drive账号,把Google Drive当成你存放数据和代码的仓库from google.colab import drivedrive.mount('/content/drive/')...
2018-12-30 18:13:31 2103
原创 Study plan 2018 Fall
Artificial Intelligencehomepage : https://www.dis.uniroma1.it/~nardi/Didattica/AI/index-new.htmlcomplement resources:Main topics: https://inst.eecs.berkeley.edu/~cs188/fa18/Knowledge Representati...
2018-12-16 16:19:38 439
原创 函数间隔和几何间隔
问题描述:求一个任意点,到一个超平面的距离超平面表示在线性代数中,一个超平面可以用下式表示 y(X)=WTX+w0\ y(\mathbf{X}) = \mathbf{W}^{T}\mathbf{X} + w0 y(X)=WTX+w0证明W是超平面的法向量在超平面上任取俩个点Xa,Xb。因为 y(Xa)=y(Xb)=0\ y(\mathbf{Xa}) = ...
2018-10-26 04:42:33 1684
原创 sklearn文档查询
以CountVectorizer类为例,总结一下怎么查询sklearn文档Google阅读API,了解参数含义 优点:参数有着详细的说明 缺点:没有详细的用例,不知道该如何使用查看用例代码结合API,理解各个函数用法...
2018-08-17 21:38:15 852
原创 反向传播算法
反向传播算法的原理很简单,只涉及chain rule和求导,但是在实际编程中,需要考虑到向量化后,会涉及矩阵求导。矩阵的求导只是提供了理论支持,实际实现中又使用了额外的技巧。资源总结:首先观看李宏毅老师的Backpropagation课程,了解为什么这个算法取名为反向传播,怎么传播的优点:例子详细,容易理解 视频地址:https://www.bilibili.com/v...
2018-08-07 14:25:11 165
原创 堆排序
本文基于普林斯顿大学的《算法》,在这里不描述算法本身,补充几个在使用该算法时需要注意的细节特点时间复杂度:O(2NlgN + 2N)空间复杂度:O(1)思路确定堆节点标号系统实现sink或者swim建堆利用 sink进行排序Note1:sink函数的声明 public void sink(char[] input, int n, in...
2018-08-07 11:08:21 145
原创 判断字符数组中是否所有的字符都只出现过一次
// 要求:在保证额外空间复杂度为O(1)的前提下,使得时间复杂度最低 // 思路:先排序,再遍历数组 // 考点:各个排序算法的时间,空间复杂度——>堆排序 public boolean isUnique(char[] chas) { if (chas == null || chas.length == 0) { ...
2018-06-18 21:49:25 328
原创 添加最少字符使字符串整体都是回文字符串
public int[][] getDP(char[] str){ int[][] result = new int[str.length][str.length]; for(int i = str.length - 1; i >= 0; i--) { for(int j = i; j < str.length; j++) { ...
2018-06-18 20:58:02 961
原创 回文最小分割数
// 从后向前 public int myMinCut(String str) { if(str == null || str.length() == 0) return 0; char[] input = str.toCharArray(); int len = input.length; //记录了input[i~j...
2018-06-18 20:55:50 321
原创 Stack
参数axis的含义 numpy.stack(arrays, axis=0, out=None)[source]axis决定了往哪个维度进行堆叠,根据上述规律,就能给出原k个n维数组中元素坐标和堆叠后坐标的对应关系被堆叠对象的维度是(2,3) 因为axis=1,且是由4个数组堆叠而成 所以堆叠后对象的维度为(2,4,3)15在原数组的坐标为(1,1),b又是排序为2...
2018-05-27 22:43:23 1084
原创 hashable
应用给定一个二维数组arr,arr中每个元素是一个一维的数组,去除其重复的一维数组解法一:In [48]: arr = np.array([num[:3],num[:3],num[1:4]])In [49]: arrOut[49]: array([[0, 1, 2], [0, 1, 2], [1, 2, 3]])In [50]: tmp ...
2018-05-27 19:21:02 474
原创 XGBoost
回顾决策树的分类能力由叶子节点上的条件概率分布决定决策树的内路径只决定了特征空间的划分情况,即给定一个样本xi,最终会落在哪个节点思考: 提升的定义提升的框架 思路:在构建好的k-1棵决策树的基础上,构建第k棵决策树符号说明: 这里需要解释一下俩棵决策树的加权和的含义 权值a1,a2取值不同,首先决定了不同的特征空间的划分,统计后得到不同的条件...
2018-05-22 07:36:33 1262
原创 Cost function
cost function的形式cost function的推导满足以下过程: 1. 认为error 满足某个分布,写出样本点xi的样本的error 2. 认为样本点是相互独立的,推导出其对数似然函数 3. 求偏导,是得导函数为0,分离常数部分,得到误差的表达形式e.g. 线性回归中关于MSE的推导:https://nk2000.github.io/2018/05/16/Linea...
2018-05-22 07:32:22 3127
原创 Logistic Regression
模型定义特征 x:m*n label y:m*1 不同的x, 参数对应一个不同的二项分布 这些二项分布可以通过统计求得改进不按照x是否相同,来统计其二项分布的分布律,而每一个样本点都看做一个独立二项分布 这样的特点就是这样的二项分布只有俩种,分别为 并且能合并表示为 目标函数——交叉熵小目标:对于每一个样本点,分别求出一个分布,使得俩者分布差距最小模...
2018-05-22 07:29:39 184
原创 Linear Regression
Loss Function理论基础:中心极限定理 误差符合高斯分布 - 公式推导 解释了为什么损失函数是这个形式模型求解 意义:理论上推导出模型可解,但对矩阵求导,计算量很大,实际不采用对目标函数求梯度 使梯度为0 为什么能添加扰动能防过拟合?通过实践可得,当n维特征向量映射成更高维的特征时,最后求解得到的参数值都很大,因此希望在原los...
2018-05-22 07:22:54 186
原创 Neural Network
PerceptronExpressiveness(and,or,not,xor)and or not represent anything:可以表达由and,or,not组合成的任意逻辑表达式e.g. XOR 结论: 1. 感知机是线性的 2. perceptron can represent anything:可以表达由and,or,not组合成的任意逻辑表达式Learning
2018-05-05 17:23:35 220
原创 Decision Tree
RepresentationLearningExpressiveness(and,or,xor)size of hypothesis set 结论: - hypothesis space is very expressive because there’s lots of different functions that you can represent - should have some
2018-05-05 17:14:12 121
原创 BFS
Hint:图的邻接表存储:LinkedList<Integer> adj[] = new LinkedList[v];for (int i=0; i<v; ++i) adj[i] = new LinkedList();Java中QueueLinkedList<Integer> queue = new LinkedList<Integer>();代码实现——geeksforgeeksc
2018-05-04 21:59:07 127
原创 环检测——并查集
先描述思路,再列出我自己的算法实现,最后列出geeksforgeeks上的代码,进行比较分析思路在做并查集时,每次对节点i和节点j做合并时,分别会在parent数组中找到他们的根节点如果根节点不同,则做合并而如果指向同一个根节点,则意味着,存在环算法实现我的版本 int[] unionParent = new int[V]; int find(int node) {
2018-05-04 21:19:02 629
原创 DataFrame数据选择方式
选择方式选择行选择列选择区域筛选(条件选择)选择行形式 data[i : j] 切片:i, j 是数字,代表所取的行号,范围为[i, j)索引:i, j是行索引名,范围为[i, j]错误 data[k] 这样获取行数据都会报错,不管k是index值,还是代表某一行的行号切片In[60]:mydataOut[60]: a b
2018-04-09 13:51:36 674
原创 模型评估
why use Training set用于检查过拟合对模型在一个独立数据集的表现How分离训练集&测试集 sklearn版本 3.17 3.18 包引入 from sklearn import cross_validation from sklearn.model_selection import train_test_split 函数调用 right-alig
2018-04-08 12:02:53 227
原创 KMP时间复杂度分析
比较过程分析比较次数 比较次数: 红色 + 蓝色 蓝色部分是相比暴力求解,节省下的比较次数周期从比较次数可以看出,呈现 1 1 1 1 5 这样的周期一个周期内的比较次数:8周期长度:5周期个数:n/5比较总次数: 周期个数 * 一个周期内额比较次数 = 1.8n 一般化结论: - 一个周期内的比较次数:1 * (M - 1) + M - 周期长度:M - 周
2018-03-16 11:52:57 19109
原创 用Python玩转数据——week2
本地数据获取文文件的打开,读写和关闭件打开后才能进行读写为什么需要关闭? 因为Python可能会缓存写入的数据 如果程序异常崩溃了 数据就不能写入到文件中 所以为了安全起见 文件用完以后要养成 主动关闭文件的习 文件的打开格式file_obj = open(filename, mode='r', buffering=-1)mode为可选参数,默认值为rbuffering也
2018-03-14 18:21:46 163
原创 用Python玩转数据——Week1
第一个Python程序运行方式 Shell方式文件方式 模块是对象,并且所有的模块都有一个内置属性 name。一个模块的 name 的值取决于您如何应用模块。如果 import 一个模块,那么模块name 的值通常为模块文件名,不带路径或者文件扩展名。但是您也可以像一个标准的程序样直接运行模块,在这 种情况下, name 的值将是一个特别缺省”main“。 IO 输入 va
2018-03-13 19:11:07 501
原创 LeetCode42. Trapping Rain Water
思路构建满足什么要求才会积水?必须存在一个左边界left,一个右边界right,且高度大于height[i]这里写图片描述需要明确对积水面积F[i]的定义: 以高度height[i]为底,存在比height[i]高的左右界,围成的面积对于图一,明显F[i]就是满足该定义的一块积水面积对于图二: - F[1] 满足,其左右边界分别为0,4 - F[2] 满足,其左右边界为1,3 - F[3
2018-03-10 19:53:33 167
原创 LeetCode20. Valid Parentheses
思路构思针对这个题目,先想几组input进行分析输入input (()) 在从左到右遍历过程中input[0]在遍历到它时,无法知道它会和后面哪一个括号匹配 因此需要把它先保存起来,但是如果存在一个右括号,它的匹配顺序又会是自右向左匹配的 因此可以得出结论,可以凭借栈来完成这项要求 ()() 针对这种匹配情况,上述思路也能满足 代码public bo
2018-03-10 10:50:08 128
原创 LeetCode32. Longest Valid Parentheses
思考构思首先针对括号匹配问题:借鉴LeetCode20那题的经验,我们可以想到借助栈,接下来就开始验证栈是否能解决该问题思路一考察第i位字符c如果c为左括号,把位置坐标i压栈如果c为右括号,对栈进行弹栈,得到index,i-index+1 就是匹配的长度验证对于(()),算法有效对于输入()(),算法无效需要针对第二种情况,重新构思思路二考察第i位字符c如果c为左括号,把位置坐标i
2018-03-10 10:47:56 124
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人