赵小越-CSDN博客

原创在经济寒冬的乱七八糟的瞎说

可能是因为年纪轻、读书少的原因吧，所以思想不成熟，所以以下见解仅代表19年现在的我的此刻的想法。经济下行的过程中，其实你做什么都是错的，你不做也是错的，做了也是做的，甚至连呼吸都不对，作为一届小屁民，我们能做什么事？似乎除了苟着没有任何出路了，但其实除了苟着，，我们能做的还有急躁啊，焦虑啊。。好了，下面开始认真的说对于即将7月份开始的工作的一些计划...

2019-01-19 09:51:02 807 2

原创 Django基础知识

因为毕设需要，赶鸭子上架，所以，必须用最短的时间搞定django，好了，说干就干。知识部分的介绍，我就略过，贴一个比较好的django介绍好了。http://djangobook.py3k.cn/2.0/chapter01/一，下载django模型pip2 install django（因为我共存了python2和python3）配置django的路径...

2019-01-04 10:20:26 827

原创年终总结

回顾过去的2018年，似乎跟过去的2017年， 2016年没有什么不同，但又似乎有很大的不同。我慢慢的梳理一下，我一年究竟做了一些啥子呀。。 2018年1月-2月，大概就是努力学习学习呀，然后出去浪浪浪，过年，真的记不清有什么大事发生~ 2018年3月-5月，被通知去北京出差，然后因为难过，买错了火车票，白白的花了800大洋啊，那几天真的可以说是超级超级背了...

2019-01-01 15:22:59 748 2

原创 matplotlib的基础

通过图表表达会更更容易让人们理解数据，所以，能够很好的掌握matplotlib会让工作变的更加高效。一，修改matplotlib的默认参数对于matplotlib的配置信息是通过配置文件读取的。配置文件提供的几乎所有属性指定的默认值。matplotlib提供了二种修改默认参数的方式，但这种也是很高级的参数了，一般来说，还是用的比较少。第一种是rcParams参数字典，...

2018-12-28 20:06:49 337

原创 pandas的基础

一个好的机器学习者，首先是一个更好的数据分析者，对于数据分析而言，一个很好用的开源库可以说是pandas库了。而pandas则是基于numpy,再开发的。学好pandas,走遍天下都不怕。对于pandas而言，有三大数据结构，其中最主要的二个数据结构，分别为series和dataframe，还有一个为Panel。其实主要说的还是前二种。贴一个学习的链接。https://...

2018-12-27 17:14:02 404

原创 Numpy的基础

Numpy是机器学习的大杀器，是对于python的一个扩充程序库，支持高维度大量的矩阵和数组的运算，并且提供了大量的数学函数库。对于Numpy而言，解除了python的PIL（全局解释器锁），运算效率得到极大的提高。对于Python中的类型是dynamically typed（动态类型），对于一个object, 里面有很多的信息，如： a reference count, ...

2018-12-27 11:14:19 343

原创《CS224n斯坦福课程》-----第七课

学习笔记：cs224n7学习视频：cs224n7学习课件：cs224n7 这节课开始，就涉及到了我最弱的那部分了。但慢慢来，跨过这个坎，说不定就变成我最强的能力了。一，什么是深度学习框架简单来说，就是有标准的模板，里面有各种好用的模板，可以快速上手，然后也可以方便交流。尤其对于梯度的计算，真的是方便，不用人每天纠结于导数的数学之中，把人解放出来，能够更好的集中于问题的...

2018-12-24 11:16:38 355

原创《CS224n斯坦福课程》-----第六课

学习笔记：cs224n6学习视频：cs224n6学习课件：cs224n6这节课，又听的云里雾里的，感觉真的很多的东西一遍真的听不懂，听不明白。所以要多听几遍，多去思考。第一个问题：常用的描述语法的二种观点。1）短语结构文法，用英语来表述：Constituency=phrase structure grammar=context free grammers(CFGs)这种表达语法...

2018-12-19 20:36:25 417

原创乱七八糟的大杂烩

最近，一直听说各种公司的各种裁人的消息，然后内心毫无波澜，直到昨晚听到我司（美团）裁人的消息，然后加上最近移动研究院的offer正式的发放，我真的慌了，我对自己的能力没有一个正确的评估，我不知道自己的竞争力是否足够能够在竞争激烈的环境中幸存，是否我有足够的勇气去面对各种挑战，去面对随时存在的“失业”的风险。我深知，职场从来都不是靠情怀，靠感情维护的。对于...

2018-12-19 15:14:56 4959 2

原创《CS224n斯坦福课程》-----第五课

学习笔记：cs224n5学习视频：cs224n5学习课件：cs224n5在这一部分中，主要介绍了二大部分：第一大部分就是反向传播的推导，第二大部分就是如何做项目。我们将我们的小眼睛集中在第一部分的内容。在上节课中，我们推导了神经网络的反向传播的导数。在上节课中，我们其实有一个隐藏层，有一个输出层，算二层，首先回顾一下上节课的内容。 ...

2018-12-19 12:39:39 351

原创《CS224n斯坦福课程》-----第一部分的大作业

看到简化版的题目，我觉得我就像一个脑残，根本看不懂，只有看到原题目，我才知道要做啥。我现在把原题目贴出来，然后一一的解答。题目意思：(a) 证明softmax函数的一个性质，在输入中存在偏移，但softmax的值是不随着偏移而改变。在实践中，我们认为这个偏移值一般是输入中的最大值。(b) 给出输入矩阵，N行D列，然后计算每行的softmax函数值，最...

2018-12-13 11:12:51 1423

原创《CS224n斯坦福课程》-----第四课

学习笔记：cs224n4学习视频：cs224n4学习课件：cs224n4这节课要解决的二个问题。第一，简单的softmax分类器一而言，对于分类问题，是通过给定训练集数据，然后通过SVM或者其他方法来得到一个分类决策边界，对于softmax而言，也是可以作为分类函数来出现,可以利用softmax来实现对于单词情感的分类等单词级别的分类操作。此处介绍的是，softmax来作为单词...

2018-12-08 11:28:44 492

原创《CS224n斯坦福课程》-----第三课

学习笔记：cs224n3学习视频：cs224n3学习课件：cs224n3上课的好处，就在于每节课老师都会解决几个问题，跟着老师的思路走，然后就可以清晰知道这节课学习了什么。1，还是继续聊聊word2vec对于word2vec而言，要遍历整个语料库的每个词，然后预测词的上下文的情况，根据损失函数的随机梯度下降，来求解二个词向量的情况。要更新的参数高达|V|*2*m。尤其对于传统的wo...

2018-12-07 19:10:43 534

原创 softmax算法

对于softmax而言，我听到这个其实是在LR算法的时候，这个是我第一次听到。印象加深的时刻，应该是在Word2vec的原理的部分的时候，在数学原理的前面的介绍就是softmax，下面我就将我自己的理解整理如下。说到softmax，我觉得不得不提的就是sigmod激活函数。下面推导sigmod的求导以及他的泛化版softmax的介绍，推导，以及二者之间的不同。（偷...

2018-12-06 21:01:30 524

原创《CS224n斯坦福课程》-----第二课

学习笔记：cs224n2学习视频：cs224n2学习课件：cs224n2同样，今天这节课还是简要的由几个问题引出，然后把思考结果书写出来。1，什么是词语的意思，如何来进行表述呢我们每天说词语的意思，那么到底什么是词语的意思呢？其实就是蕴含在词语中的所要传达的信息量。对于英文中，有一个神器，WordNet，这个就是词语界的百科全书，通过NLTK包可以使用这个聚集了大量前人心血的东西。...

2018-12-03 14:15:12 398

原创《CS224n斯坦福课程》-----第一课

学习笔记：cs224n1学习视频：cs224n1学习课件：cs224n1第一个问题：什么是自然语言处理自然语言处理是一个交叉学科，是计算机科学，人工智能，以及语言学的交叉学科，而且与计算机视觉相比，它是很独特的一部分，因为只有人类才拥有语言，所以自然语言处理可以说是一个很有挑战性的问题。对于自然语言处理而言，一般有几个阶段speech 语音 text 文本phonetic...

2018-11-30 16:13:16 658

原创版本空间的简要介绍

一个新的概念，版本空间，但能查到的资料很有限，现把我能查到的资料列举如下，以便大家查阅。版本空间（version space）是概念学习中与已知数据集一致的所有假设（hypothesis）的子集集合。版本空间学习是一种机器学习的逻辑方法，特别是二进制分类。版本空间学习算法搜索预定空间的假设，被视为一组逻辑语句。对于二维空间中的“矩形”假设（右图），绿色加号代表正类样本，红色小圈代表负类样...

2018-11-22 15:56:52 1206

原创主动学习，半监督学习的概念的区分

（一）从概念上区分主动学习（active learning）学习器能够主动选择包含信息量大的未标注的样例并将其交由专家进行标注，然后置入训练集进行训练，从而在训练集较小的情况下获得较高的分类正确率，这样可以有效的降低构建高性能分类器的代价。学习器能够主动的提出一些标注请求，将一些经过筛选的数据交给专家进行标注。这个过程中最重要的是如何筛选数据进行标注。A=（C,L,S,Q,U）其中，C是...

2018-11-20 11:27:09 5404 2

原创主动学习的概述

设想一个问题的场景：在监督学习方法中，获得有标注数据是异常困难的，而获得无标签数据时相对容易的，有这个现状的情况下，那我们该如何解决这些问题呢？主动学习就是为了解决此类问题而出现的。本文只是一个概述，主要用来考虑现在的主动学习的研究方向是怎样的。之后会仔细的学习每一个算法。一般而言，主动学习方法，主要分为二个部分：学习引擎和选择引擎。其中，学习引擎负责维护一个基...

2018-11-19 11:31:31 4325

原创如何定义一个机器学习问题

今日学习的资料是一个博客的内容，原文是英文的，我把它翻译出来，理顺思路，给自己以及大家一些小的启示。如何定义你的机器学习的问题定义一个正确的机器学习的问题，才是你得到正确解的一个前提，是必要条件。面对你要求解的问题，可以思考的问题的框架为：1，这是一个什么样的问题。首先，有一个定性的理解，可以用非正式的语言来进行描述，大概知道你要...

2018-11-16 11:15:16 1059

原创每天学点皮毛法律，避点坑

从今天开始，应该会每天不间断的更新一点法律的常识，然后做一些记录，第一的作用是可以做笔记，以后翻出来，一眼可以知道自己学习了什么，第二，也就是主要的原因，激励自己可以坚持下去。·好了~~，可以开始了，不定期更新中。2018.11.091，对于法律一刀切，虽然惩罚力度上去了，但其反面效果更加严重，因为不分轻重，只能加剧犯罪的恶度，而真正的解决问题：第一是执法要严，而且其实最主...

2018-11-09 10:32:36 846 1

matplotlib的安装说明：在这部分避个坑就好，涉及到了很多的包的安装的依赖关系。主要是numpy，matplotlib，scipy， sklearn包的依赖关系，解决这个问题的最好的解决方案就是放弃pip install numpy好吧，然后自己从网站下载安装包，然后cd到python的pip安装文件夹下，然后pip install **文件，然后安装好文件。按照顺序来进行安装，numpy-...

2018-11-08 17:24:55 213

原创自然语言处理入门---学习方法概述

今日，学习的资料来源为：如何在NLP领域第一次做成一件事自然语言处理的研究内容：1，句法语义分析（主要对句子进行分词，词性识别，命名实体识别，句法分析，语义角色分析，多义词消歧等）2，信息抽取（从文本中抽取重要的信息，主要涉及到了实体识别，时间抽取，因果关系抽取等关键技术）3，文本挖掘（对文本数据进行聚类，分类，信息抽取，摘要，情感分析等主流的统计机器学习）4，机器...

2018-10-24 11:11:48 494 1

原创 leetcode题目：树（一）

1, 二叉搜索树中的是否存在二个数的和为某个数（653）思路：借助外部空间，判断是否有二个数的和为固定的值，避免一直递归来求解。再最后求得那个地方，因为采用中序遍历，所以就是顺序排列，在搜索二个数和为某个值的情况，可以进行一部分优化。class Solution(object): def __init__(self): self._list = [] d...

2018-09-20 22:09:32 207

原创 python基础及常见面试问题

2018-09-10 21:08:01 400

原创 PLSA的理解及推导

plsa对于文本主题的发展，在于其对于lsa进行了概率化，也就是文档的生成过程涉及到了选择主题，然后从主题中选择单词的过程，这二个选择的过程都满足多项式分布的情况。对于PLSA而言，就是一个典型的EM算法问题呀。主题就是隐含变量，已知变量就是单词，文本的情况。再求解EM算法时，首先要明确极大化的对数似然函数，然后求E步，E步求解中首先要把隐含变量的条件概率求出来，...

2018-08-09 16:54:57 3075

原创 LDA主题模型（一）------数学基础

lda的数学基础是理解LDA模型的最基础的东西，其中涉及到了gamma分布，beta分布，dirichlet分布，以及频率派，贝叶斯派的思想，以及常见的随机模拟（MCMC,Gibbs采样等），文本建模的思想等。 ...

2018-08-09 16:35:52 451

原创 LSI（SVD）、NMF的理解及推导

主题模型，是一种语言模型，是对于文字中隐含的主题的一种建模的方法。对于主题模型的副产品，一个很重要的应用在于用主题模型方法来抽取词向量，其中，LSI方法是词向量分布式表示方法中的syntagmatic model中的典型代表，利用了词之间的共现情况，也就是利用到了相似的词出现的语境类似的特性，然后得到词向量的表述，是一种基于矩阵（基于计数）的词向量抽取模式。...

2018-08-08 11:53:29 1392

原创 Glove模型的理解和推导

Glove模型，也是一个较为常用的词向量度量的方法，可以通过gensim来调用Glove模型，训练好的word2vec与glove模型只有文本开头不一样（txt方式），word2vec的训练模型前比glove多了一行，说明了训练个数以及维度的信息。只需要加上这一维信息，就可以利用gensim来调用glove模型来度量文本的词向量。 ...

2018-08-07 17:18:52 1919

原创 Word2vec的推导及理解

2018-08-07 14:43:20 485

原创机器学习中常见的特征处理的问题汇总

一切从数据中来，一切依据于数据来进行考虑。脱离数据的特征，是没有灵魂的特征，但我们现在思考的是抽象场景中的特征的通用处理办法嘎。【特征筛选】肯定从现实生活角度来说，就是请教行家，行家一出手就知有没有。从数据本身的角度而言，可以分析几类数据的均值情况考虑是否具有区分性，可以分析方差的变化，如果均值没有区分性的时候，考虑方差，如果方差很小的话，说明很平均，很相似...

2018-07-30 16:14:16 624

原创机器学习中数据属性及相关处理总结

想要继续的往前走，必须有深厚的内功，现在就是在修炼内功的时候，其实就是扎马步，略略略。看到一个问题的求解，首先需要明确我们处理的是什么数据，不同的数据当然要不同的处理呀。数据的属性，也可以叫特征，变量，维度等，我们对属性进行研究，不同的属性给与不同的处理。属性的划分：标称属性（分类属性）,也就是只具有类别信息，只是一个符号和事物的名称。对于标...

2018-07-27 11:54:58 2495

原创线性回归模型的学习

线性回归，首先，第一层意思是线性，也就是最高项为一次；其次，第二层意思是回归的意思，也就是拟合，求那么一条曲线，可以经过这些点。线性回归的学习主要从三个方面来学习，第一个方面是线性回归模型的基本的概念问题（利用代数法来表示，利用矩阵法来表示）;第二个方面是线性模型的扩展；第三个问题是线性模型的正则化问题（L1正则化，L2正则化）。我...

2018-07-23 22:32:00 430

原创英语学习Day1

【单词】：cast sb in sth 选演员扮演某个角色 underdog 劣势方，弱者 debilitated 使衰弱，使削弱 bitter 艰苦的 churn out 快速，大批量的生产 ...

2018-07-20 19:15:54 295

原创 WordNet的了解和学习

wordnet是面向语义的英语词典，有更加丰富的结构信息。首先，wordnet可以帮助我们寻找同义词。from nltk.corpus import wordnet as wnwn.synset('motorcar') 比如是motorcar，则得到的是car.n.01(01代表只有一种同义词集)的同义词集，我们来得到同义词的具体的词条名字wn.sy...

2018-07-11 10:05:31 3260

原创对于单条短文本数据的分类（噪声数据过滤）

似乎还没在语义方向来进行深入处理，这一年一直往结构特征的角度来进行处理，但真真的觉得这还是一个死胡同，没办法啊，所以叫人在江湖身不由己。哈哈。今天新思考了一个点，就是通过统计的角度，来判断词性之间的搭配关系。首先，我先讲一下思路，我只是进行了很粗略的统计，甚至都是暴力的手段，通过统计二元词性的搭配的问题，很粗略的判断最可能出现的二种词性的搭配问题。 ...

2018-06-27 14:33:32 1823

原创 python中的staticmethod和classmethod方法

哎，要学习的东西，真的又多又杂，这不，又再一次转场学习python语言。 python中的3中定义类的方法，常规的那一种，@classmethod修饰方法，@staticmethod修饰方法。首先，我们说一下常规定义类的方法，...

2018-06-25 19:53:40 567

原创 python中的中文编码的问题汇总

编码，真的可以说是一个大坑，为了避免这个大坑，确实需要从原理上来理解，然后解决问题的时候，一一对问题进行排查即可，实在不行，真的就是print类型出来，看到底是什么问题。首先，在python2环境下，默认的编码格式是ASCII编码，在没有修改编码格式的时候，在.py文件中，无法正常的打印汉字，并且在读取中文的时候也会出错。这个时候报错信息为 File "D:/work_...

2018-06-25 11:19:51 396

原创 EM算法的学习

EM算法是一种迭代算法，用于求含有隐变量的概率模型参数的极大似然估计，用简单粗暴的语言来解释，就是求参数的值，也就是求解的一个过程，但参数的求解中，与普通的简单的参数的求解不同，是一种带有隐变量(hidden variable)的模型的参数求解的方法。来解读EM算法，首先是E，期望（Expectation），其次是M，最大（Maximization），所以这一算法称为期望极大算法(...

2018-06-24 16:02:38 899

原创集成学习的学习

首先，第一点，说明什么是集成学习，就是把多个分类的方法集中起来，然后集中大家的智慧来进行判断。在集成学习中，我们主要说的是三种框架：boosting, bagging, stacking。具体介绍的为集成学习方法的介绍。新一轮的学习中需要牢记的点：提升方法(boosting)，是一种常用的统计学习方法，是判别模型，最后得到...

2018-06-23 11:41:14 410

剑指offer题解

空空如也