自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 Fasttext应用

Fasttext查看了论文https://zhuanlan.zhihu.com/p/32965521n折交叉检验是否需要重新训练模型?待学习

2020-07-26 23:41:45 146

原创 Task3 基于机器学习的文本分类

TfidfVectorizer参数探究ngram_rangemax_features

2020-07-25 22:29:06 123

原创 数据分析(一)

label distribution是一个不均衡的数据集,需要做数据预处理Sentence length distribution句子的长度也很极端,有很多的outliers,需要对过长的数据进行舍弃或者切割。

2020-07-22 23:52:06 143

原创 赛题理解

任务这次任务是一个多分类问题。评测标准f1_score,不直接用准确率可能是为了在unbalance的数据集中,更好地评测模型思路特征抽取DLWord2vecGloveBertMLTF-IDF分类器SVMXGboost数据分析特征是由数字表示的,不能直接使用预训练模型,Bert==GG。最简单的特征抽取就是基于统计的TF-IDF,可以尝试自己训练Glove。统计了一下label的分布,差距很大,鉴于评测用的是F1-score。就要对数据进行balance操

2020-07-21 22:21:49 130

原创 Word Sense Disambiguation

1 IntroductionI build a basic bi-lstm model, bi-lstm + attention model and a multy task learning model describe in the paper and a model which Incorporates glosses information using memory network to...

2019-09-11 03:12:08 1330 1

原创 Model_WIR

There are two main topics here. One is the basic models, the other is model seletion part.Naive bayes# fit the training dataset on the NB classifierNaive = naive_bayes.MultinomialNB()Naive.fit(T...

2019-09-10 19:29:19 104

原创 Preprocessing

clean_contextI substitute some special symbols using regular expression and split by predefined symbols.Parametersthe input is a string.output is a list whose element is a token.Exampleinput: “E...

2019-09-10 18:59:14 179

原创 tf.slice

功能如果把Tensor看成一个高维数组的话,slice就是返回它的一个子集参数tf.slice( input_, begin, size, name=None)用例t = tf.constant([[[1, 1, 1], [2, 2, 2]], [[3, 3, 3], [4, 4, 4]], ...

2019-03-09 05:55:58 94

原创 tf.lin_space

功能Generates values in an interval.参数tf.linspace( start, stop, num, # umber of values to generate. name=None)用例tf.linspace(10.0, 12.0, 1, name="linspace") => [ 10.0]tf.li...

2019-03-09 05:43:42 342

原创 tf.where

介绍参数形式介绍最简单的用法,解释返回值的含义根据官方API文档,补充更多的调用形式参数tf.where( condition, x=None, y=None, name=None)返回值类型x = tf.constant([29.05088806, 27.61298943, 31.19073486, 29.35532951])ind...

2019-03-09 05:37:14 304

原创 tf.reshape

官方文档链接https://www.tensorflow.org/api_docs/python/tf/reshape调用tf.reshape( tensor, shape, name=None)It means that tf.reshape produces a new tensor.x = tf.constant([29.05088806, 27.61...

2019-03-09 05:02:22 119

原创 First order logic——Inference

区分Inference rule 和 Inference algorithm的区别理解各个Inference rule的soundness 和completeness的关联算法独立性Knowledge base可能因为基于不同的逻辑规则而不同,比如Propositial logic 和 First order logic的语法,语义都不相同Inference ruleMode...

2019-01-20 03:51:51 642

原创 First order logic——Writing FOL

translate1. 分清楚逻辑主次场景一:Let Gov , Univ, Lca, Bill be constant symbols, and let prof(x),stud(x),unhappy(x),cut fund(x,y),fail exam(x,y) be unary and binary predicate symbols.If professors are unhap...

2019-01-20 03:33:44 552

原创 (一)Colab入门

Colab优点免费使用方便,无需在本地安装TensorFlow,keras等深度学习框架配置install Keras!pip install -q keras关联你自己的Google Drive账号,把Google Drive当成你存放数据和代码的仓库from google.colab import drivedrive.mount('/content/drive/')...

2018-12-30 18:13:31 2057

原创 Study plan 2018 Fall

Artificial Intelligencehomepage : https://www.dis.uniroma1.it/~nardi/Didattica/AI/index-new.htmlcomplement resources:Main topics: https://inst.eecs.berkeley.edu/~cs188/fa18/Knowledge Representati...

2018-12-16 16:19:38 415

原创 函数间隔和几何间隔

问题描述:求一个任意点,到一个超平面的距离超平面表示在线性代数中,一个超平面可以用下式表示 y(X)=WTX+w0\ y(\mathbf{X}) = \mathbf{W}^{T}\mathbf{X} + w0 y(X)=WTX+w0证明W是超平面的法向量在超平面上任取俩个点Xa,Xb。因为 y(Xa)=y(Xb)=0\ y(\mathbf{Xa}) = ...

2018-10-26 04:42:33 1519

原创 sklearn文档查询

以CountVectorizer类为例,总结一下怎么查询sklearn文档Google阅读API,了解参数含义 优点:参数有着详细的说明 缺点:没有详细的用例,不知道该如何使用查看用例代码结合API,理解各个函数用法...

2018-08-17 21:38:15 821

原创 反向传播算法

反向传播算法的原理很简单,只涉及chain rule和求导,但是在实际编程中,需要考虑到向量化后,会涉及矩阵求导。矩阵的求导只是提供了理论支持,实际实现中又使用了额外的技巧。资源总结:首先观看李宏毅老师的Backpropagation课程,了解为什么这个算法取名为反向传播,怎么传播的优点:例子详细,容易理解 视频地址:https://www.bilibili.com/v...

2018-08-07 14:25:11 144

原创 堆排序

本文基于普林斯顿大学的《算法》,在这里不描述算法本身,补充几个在使用该算法时需要注意的细节特点时间复杂度:O(2NlgN + 2N)空间复杂度:O(1)思路确定堆节点标号系统实现sink或者swim建堆利用 sink进行排序Note1:sink函数的声明 public void sink(char[] input, int n, in...

2018-08-07 11:08:21 125

原创 判断字符数组中是否所有的字符都只出现过一次

// 要求:在保证额外空间复杂度为O(1)的前提下,使得时间复杂度最低 // 思路:先排序,再遍历数组 // 考点:各个排序算法的时间,空间复杂度——>堆排序 public boolean isUnique(char[] chas) { if (chas == null || chas.length == 0) { ...

2018-06-18 21:49:25 305

原创 添加最少字符使字符串整体都是回文字符串

public int[][] getDP(char[] str){ int[][] result = new int[str.length][str.length]; for(int i = str.length - 1; i >= 0; i--) { for(int j = i; j < str.length; j++) { ...

2018-06-18 20:58:02 933

原创 回文最小分割数

// 从后向前 public int myMinCut(String str) { if(str == null || str.length() == 0) return 0; char[] input = str.toCharArray(); int len = input.length; //记录了input[i~j...

2018-06-18 20:55:50 301

原创 Stack

参数axis的含义 numpy.stack(arrays, axis=0, out=None)[source]axis决定了往哪个维度进行堆叠,根据上述规律,就能给出原k个n维数组中元素坐标和堆叠后坐标的对应关系被堆叠对象的维度是(2,3) 因为axis=1,且是由4个数组堆叠而成 所以堆叠后对象的维度为(2,4,3)15在原数组的坐标为(1,1),b又是排序为2...

2018-05-27 22:43:23 1050

原创 hashable

应用给定一个二维数组arr,arr中每个元素是一个一维的数组,去除其重复的一维数组解法一:In [48]: arr = np.array([num[:3],num[:3],num[1:4]])In [49]: arrOut[49]: array([[0, 1, 2], [0, 1, 2], [1, 2, 3]])In [50]: tmp ...

2018-05-27 19:21:02 452

原创 XGBoost

回顾决策树的分类能力由叶子节点上的条件概率分布决定决策树的内路径只决定了特征空间的划分情况,即给定一个样本xi,最终会落在哪个节点思考: 提升的定义提升的框架 思路:在构建好的k-1棵决策树的基础上,构建第k棵决策树符号说明: 这里需要解释一下俩棵决策树的加权和的含义 权值a1,a2取值不同,首先决定了不同的特征空间的划分,统计后得到不同的条件...

2018-05-22 07:36:33 1229

原创 Cost function

cost function的形式cost function的推导满足以下过程: 1. 认为error 满足某个分布,写出样本点xi的样本的error 2. 认为样本点是相互独立的,推导出其对数似然函数 3. 求偏导,是得导函数为0,分离常数部分,得到误差的表达形式e.g. 线性回归中关于MSE的推导:https://nk2000.github.io/2018/05/16/Linea...

2018-05-22 07:32:22 3104

原创 Logistic Regression

模型定义特征 x:m*n label y:m*1 不同的x, 参数对应一个不同的二项分布 这些二项分布可以通过统计求得改进不按照x是否相同,来统计其二项分布的分布律,而每一个样本点都看做一个独立二项分布 这样的特点就是这样的二项分布只有俩种,分别为 并且能合并表示为 目标函数——交叉熵小目标:对于每一个样本点,分别求出一个分布,使得俩者分布差距最小模...

2018-05-22 07:29:39 165

原创 Linear Regression

Loss Function理论基础:中心极限定理 误差符合高斯分布 - 公式推导 解释了为什么损失函数是这个形式模型求解 意义:理论上推导出模型可解,但对矩阵求导,计算量很大,实际不采用对目标函数求梯度 使梯度为0 为什么能添加扰动能防过拟合?通过实践可得,当n维特征向量映射成更高维的特征时,最后求解得到的参数值都很大,因此希望在原los...

2018-05-22 07:22:54 163

原创 Neural Network

PerceptronExpressiveness(and,or,not,xor)and or not represent anything:可以表达由and,or,not组合成的任意逻辑表达式e.g. XOR 结论: 1. 感知机是线性的 2. perceptron can represent anything:可以表达由and,or,not组合成的任意逻辑表达式Learning

2018-05-05 17:23:35 198

原创 Decision Tree

RepresentationLearningExpressiveness(and,or,xor)size of hypothesis set 结论: - hypothesis space is very expressive because there’s lots of different functions that you can represent - should have some

2018-05-05 17:14:12 105

原创 BFS

Hint:图的邻接表存储:LinkedList<Integer> adj[] = new LinkedList[v];for (int i=0; i<v; ++i) adj[i] = new LinkedList();Java中QueueLinkedList<Integer> queue = new LinkedList<Integer>();代码实现——geeksforgeeksc

2018-05-04 21:59:07 108

原创 环检测——并查集

先描述思路,再列出我自己的算法实现,最后列出geeksforgeeks上的代码,进行比较分析思路在做并查集时,每次对节点i和节点j做合并时,分别会在parent数组中找到他们的根节点如果根节点不同,则做合并而如果指向同一个根节点,则意味着,存在环算法实现我的版本 int[] unionParent = new int[V]; int find(int node) {

2018-05-04 21:19:02 602

原创 DataFrame数据选择方式

选择方式选择行选择列选择区域筛选(条件选择)选择行形式 data[i : j] 切片:i, j 是数字,代表所取的行号,范围为[i, j)索引:i, j是行索引名,范围为[i, j]错误 data[k] 这样获取行数据都会报错,不管k是index值,还是代表某一行的行号切片In[60]:mydataOut[60]: a b

2018-04-09 13:51:36 638

原创 模型评估

why use Training set用于检查过拟合对模型在一个独立数据集的表现How分离训练集&测试集 sklearn版本 3.17 3.18 包引入 from sklearn import cross_validation from sklearn.model_selection import train_test_split 函数调用 right-alig

2018-04-08 12:02:53 215

原创 KMP时间复杂度分析

比较过程分析比较次数 比较次数: 红色 + 蓝色 蓝色部分是相比暴力求解,节省下的比较次数周期从比较次数可以看出,呈现 1 1 1 1 5 这样的周期一个周期内的比较次数:8周期长度:5周期个数:n/5比较总次数: 周期个数 * 一个周期内额比较次数 = 1.8n 一般化结论: - 一个周期内的比较次数:1 * (M - 1) + M - 周期长度:M - 周

2018-03-16 11:52:57 18685

原创 用Python玩转数据——week2

本地数据获取文文件的打开,读写和关闭件打开后才能进行读写为什么需要关闭? 因为Python可能会缓存写入的数据 如果程序异常崩溃了 数据就不能写入到文件中 所以为了安全起见 文件用完以后要养成 主动关闭文件的习 文件的打开格式file_obj = open(filename, mode='r', buffering=-1)mode为可选参数,默认值为rbuffering也

2018-03-14 18:21:46 148

原创 用Python玩转数据——Week1

第一个Python程序运行方式 Shell方式文件方式 模块是对象,并且所有的模块都有一个内置属性 name。一个模块的 name 的值取决于您如何应用模块。如果 import 一个模块,那么模块name 的值通常为模块文件名,不带路径或者文件扩展名。但是您也可以像一个标准的程序样直接运行模块,在这 种情况下, name 的值将是一个特别缺省”main“。 IO 输入 va

2018-03-13 19:11:07 481

原创 LeetCode42. Trapping Rain Water

思路构建满足什么要求才会积水?必须存在一个左边界left,一个右边界right,且高度大于height[i]这里写图片描述需要明确对积水面积F[i]的定义: 以高度height[i]为底,存在比height[i]高的左右界,围成的面积对于图一,明显F[i]就是满足该定义的一块积水面积对于图二: - F[1] 满足,其左右边界分别为0,4 - F[2] 满足,其左右边界为1,3 - F[3

2018-03-10 19:53:33 147

原创 LeetCode20. Valid Parentheses

思路构思针对这个题目,先想几组input进行分析输入input (()) 在从左到右遍历过程中input[0]在遍历到它时,无法知道它会和后面哪一个括号匹配 因此需要把它先保存起来,但是如果存在一个右括号,它的匹配顺序又会是自右向左匹配的 因此可以得出结论,可以凭借栈来完成这项要求 ()() 针对这种匹配情况,上述思路也能满足 代码public bo

2018-03-10 10:50:08 112

原创 LeetCode32. Longest Valid Parentheses

思考构思首先针对括号匹配问题:借鉴LeetCode20那题的经验,我们可以想到借助栈,接下来就开始验证栈是否能解决该问题思路一考察第i位字符c如果c为左括号,把位置坐标i压栈如果c为右括号,对栈进行弹栈,得到index,i-index+1 就是匹配的长度验证对于(()),算法有效对于输入()(),算法无效需要针对第二种情况,重新构思思路二考察第i位字符c如果c为左括号,把位置坐标i

2018-03-10 10:47:56 109

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除