小白学机器学习
PerpetualLearner
这个作者很懒,什么都没留下…
展开
-
理解Online Learning
online learningOnline Learning的优化目标是整体的损失函数最小化。传统的训练方法,模型上线后,更新的周期会比较长(一般是一天,效率高的时候为一小时),这种模型上线后,一般是静态的(一段时间内不会改变),不会与线上的状况有任何互动,假设预测错了,只能在下一次更新的时候完成更正。Online Learning训练方法不同,会根据线上预测的结果动态调整模型。如果模型预...原创 2020-04-13 22:27:08 · 962 阅读 · 0 评论 -
[译]sklearn.feature_extraction.text.TfidfVectorizer
class TfidfVectorizer官方文档class sklearn.feature_extraction.text.TfidfVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, toke...翻译 2019-06-25 14:15:41 · 409 阅读 · 0 评论 -
[译]train_test_split()
sklearn.model_selection.train_test_split(*arrays, **options)官方文档将数组或矩阵随机拆分成训练子集和测试子集。ParametersParameters数据类型意义*arrayssequence of indexables with same length / shape[0]待分数据集tes...翻译 2019-06-25 13:16:04 · 4125 阅读 · 0 评论 -
《机器学习实战》第二章:K-近邻算法(KNN)
KNN算法解释有监督学习、分类问题。分类标准为,输入一个新的数据,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签,一般只选取样本数据集中前k个最相似的数据(因此成为k-近邻),然后选择k个最相似数据中出现次数最多的分类作为新数据的分类。电影类型分类问题导入数据from numpy import *import oper...原创 2019-06-20 19:20:57 · 563 阅读 · 0 评论 -
精确率(Precision、查准率)与召回率(Recall Rate、查全率)
精确率1精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP召回率召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正...原创 2019-06-16 10:03:29 · 5243 阅读 · 0 评论 -
《机器学习实战》第一章:机器学习基础、Pylab、NumPy常用命令
何谓机器学习机器学习就是把无序的数据转换成有用的信息,彰显数据背后的真实含义。机器学习对任何需要解释并操作数据的领域都有所裨益。PylabPylab1将NumPy、SciPy、Matplotlib合并为一个开发环境。关于pylab模块的安装2。NumPy常用命令matrix和array数据类型矩阵matrix和数组array是两种不同的数据类型,都可以用于处理行列表示...原创 2019-06-20 11:30:11 · 252 阅读 · 0 评论 -
中文翻译sklearn Naive Bayes
官方文档1Naive Bayes方法是一系列采用基于朴素假设(类变量对应的属性值彼此条件独立)的贝叶斯定理的监督学习算法。贝叶斯定理申明如下关系,给定的类变量yyy和从属的特征向量x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn:P(y∣x1,x2,...xn)=P(y)P(x1,x2,...xn∣y)P(x1,x2,...xn)P(y|x_1,x_...翻译 2019-06-19 16:25:55 · 354 阅读 · 0 评论 -
中文翻译sklearn.naive_bayes.MultinomialNB
官方定义1class sklearn.naive_bayes.MultinomialNB(alpha = 1.0, fit_prior= True, class_prior= None)概念解释针对多项式模型的朴素贝叶斯(Naive Bayes)分类器。多项式朴素贝叶斯分类器适合离散特征的分类问题。(例如:文本分类中的单词计数)。多项式分布一般要求特征计数是整数。然而,实际应用中...翻译 2019-06-19 10:58:42 · 2309 阅读 · 0 评论 -
拉格朗日乘子法详解
引言优化问题,是生活中常见问题,比如建筑美学中黄金比例1.618可以取得最佳的视觉效果;建筑实用角度来看古堡大都修建成原型外观,也是因为圆形比其他形状在等周长下可用面积最大1。现实中的优化,大多会拖个尾巴(限制条件),求解约束下的优化,可成为约束极值问题。拉格朗日乘子法是其中一种解决方案。优化问题数学分类通常,需要求解的优化问题有如下几类:无约束优化问题,写为min&...原创 2019-06-05 17:11:39 · 4692 阅读 · 0 评论 -
免费下载学术论文的网站
如题,推荐:全国图书馆参考咨询联盟 虽然采用邮箱推送,不过速度非常快原创 2019-06-05 11:12:49 · 3415 阅读 · 0 评论 -
有序有重复、有序无重复、无序无重复、无序有重复区别详解及Python实现
这几个概念理解起来有点困难,然而他们是整个概率论的基础。理解了他们的四个的区别,对于理解高阶概率论很有帮助。本文是在学习[Vamei 概率论01 计数](https://www.cnblogs.com/vamei/p/3180875.html) 基础上得到的。概率论的基础大数定律(伯努利)证明随机事件的频率可以近似于它的概率。以此,使概率称为一门可以确定研究的学问。这是概率论的确定...原创 2019-05-13 14:55:57 · 5564 阅读 · 3 评论 -
特征函数解释了世界的哪个环节?
特征函数(维基百科_中文 _英文)在概率论中,任何随机变量的特征函数(缩写:ch.f,复数形式:ch.f’s)完全定义了它的概率分布。特征函数能够唯一确定随机变量的概率分布,如果随机变量的概率密度函数f(x)存在,特征函数相当 f(x)的傅里叶变换。概率论中,矩母函数(Moment-generating Function)和特征函数(Characteristic Function)...原创 2019-05-11 12:13:12 · 1791 阅读 · 0 评论 -
联合分布的本质是描述世界的哪个环节
联合分布(维基百科)在概率论中, 对两个随机变量X和Y,其联合分布是同时对于X和Y的概率分布.离散随机变量的联合分布概率质量函数P(X=x and Y=y)=P(Y=y∣X=x)P(X=x)=P(X=x∣Y=y)P(Y=y)P(X=x \, and \, Y=y)=P(Y=y|X=x)P(X=x)=P(X=x|Y=y)P(Y=...原创 2019-05-11 11:19:10 · 326 阅读 · 0 评论 -
[译]sklearn.decomposition.TruncatedSVD
sklearn.decomposition.TruncatedSVDclass sklearn.decomposition.TruncatedSVD(n_components=2, algorithm=’randomized’, n_iter=5, random_state=None, tol=0.0)采用阶段奇异值分解SVD降维。与PCA相比,这种方式再计算SVD之前不指定数据中心...翻译 2019-06-25 15:19:52 · 3893 阅读 · 0 评论 -
[译]sklearn.preprocessing.StandardScaler
sklearn.preprocessing.StandardScalerclass sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)通过去除均值和缩放为单位变量实现特征标准化。计算方式为z=x−μsz=\frac{x-\mu}{s}z=sx−μμ\muμ是训练样本的均...翻译 2019-06-25 16:21:13 · 3000 阅读 · 0 评论 -
划分,全概率公式,贝叶斯公式证明
划分划分(Partition),A1,A2,...,AnA_1,A_2,...,A_nA1,A2,...,An是空间Ω\OmegaΩ的划分(Partition),如果满足{Ai⋂Aj=∅⋃i=1n=Ω\begin{cases}A_i \bigcap A_j = \emptyset \\ \bigcup^n_{i=1}=\Omega \end {cases}{Ai⋂Aj=∅⋃i...原创 2019-08-12 19:47:04 · 2741 阅读 · 2 评论 -
敲代码撸案例学习LSTM预测股价
先汇总资料,后续完工LSTM一种改进的RNN,解决RNN记忆长期先验失效问题。具体见:《初次理解LSTM本质》通过每日股价预测次日股价ReferencesTensorFlow LSTMLSTM预测股价的APPAlexandre Xavier, 验证 | 单纯用LSTM预测股价,结果有多糟(附代码)使用LSTM-RNN建立股票预测模型Jakob Aun...原创 2019-06-24 19:35:37 · 2800 阅读 · 0 评论 -
(2019.6.24已解决)Tendorflow安装出错: Could not find a version that satisfies the requirement grpcio>=1.8.6
Could not find a version that satisfies the requirement grpcio>=1.8.6No matching distribution found for grpcio>=1.8.6 (from tensorflow)问题是因为tensorflow与python4.7不兼容,好消息是目前Tensorflow已经兼容Python4....原创 2019-06-24 18:47:10 · 10011 阅读 · 7 评论 -
NLP常见单词翻译、自然语言处理入门
本文系转载,原文链接。本文主要介绍自然语言处理(Natural Language Processing:NLP)中的一些最基础的概念,可以帮助读者在整体上感知这一领域,算是一篇入门读物。词库Vocabulary,表示所有词的集合。一般而言,经过one-hot encoding之后的向量的长度即为词库的大小。语料库Corpus,由词库里所有的词组成的句子,短语等语料信息,可以简单理解为...原创 2019-06-24 17:33:24 · 3194 阅读 · 0 评论 -
新手学习Keras路线图
为什么说好老师重要,不在于Ta真的懂多少,因为Ta懂得是Ta的,无论好坏背景如何,都不能传给任何人,但是好老师可以指一条明路,快、准、渐,一步步就可迭代出自己的知识体系。网上资料挺多,有下面为优:热心群众维护的Keras中文文档 ,基础友好,极好,甚好官方Keras中文文档Keras作者博客悟乙己Keras系列...原创 2019-06-27 15:45:38 · 480 阅读 · 0 评论 -
中文教程Gensim框架理解
本文系转载:【gensim中文教程】开始使用gensim介绍了基本概念,以及理解和使用gensim的基本元素,并提供了一个简单的例子。核心概念和简单例子从宏观来看,gensim提供了一个发现文档语义结构的工具,通过检查词出现的频率。gensim读取一段语料,输出一个向量,表示文档中的一个词。词向量可以用来训练各种分类器模型。这三个模型是理解gensim的核心概念,所以接下来依次介绍。同时...转载 2019-06-26 16:07:20 · 732 阅读 · 0 评论 -
[译]sklearn.feature_extraction.text.CountVectorizer
`class sklearn.feature_extraction.text.CountVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None,...翻译 2019-06-18 18:57:35 · 415 阅读 · 0 评论 -
[译]文本特征提取与评估的样品Pipeline
本文译自Sample pipeline for text feature extraction and evaluation,部分地方加自己理解下的注释,非专业人士,部分名词可能翻译有误,恳谢指正。本例中采用的数据集是20 newsgroups数据集,他可以自动下载并告诉存储,可重复用于文档分类案例。通过给数据集加载器指定name,可以调整类别数目。也可以采用默认值20.这是一个跑在四...翻译 2019-06-26 11:34:53 · 293 阅读 · 0 评论 -
[译]sklearn.model_selection.GridSearchCV
sklearn.model_selection.GridSearchCVclass sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0, pre_dispatch=‘2*n_jobs...翻译 2019-06-26 11:31:11 · 592 阅读 · 0 评论 -
[译]sklearn.pipeline.Pipeline
sklearn.pipeline.Pipelineclass sklearn.pipeline.Pipeline(steps, memory=None, verbose=False)带有最终评估量的转换流程。循序的运用一些列转换和一个最终评估量。Pipeline的中间步骤必须是’transforms’,就是说,他们必须实现fit、transform方法。最终评估量只需要执行fit。流...翻译 2019-06-25 19:50:55 · 729 阅读 · 0 评论 -
[译]make_scorer()
sklearn.metrics.make_scorersklearn.metrics.make_scorer(score_func, greater_is_better=True, needs_proba=False, needs_threshold=False, **kwargs)依据性能指标或损失函数制作一个记分器。这个制造函数封装了用于GridSearchCV 以及cross_...翻译 2019-06-25 19:24:02 · 3376 阅读 · 0 评论 -
闭式解
闭式解(维基百科)又称为解析解,是可以用解析表达式来表达的解。在数学上,如果一个方程或者方程组存在的某些解,是由有限次常见运算的组合给出的形式,则称该方程存在解析解。二次方程的根就是一个解析解的典型例子。在低年级数学的教学当中,解析解也被称为公式解。数值解(维基百科)当解析解不存在时,比如五次以及更高次的代数方程,则该方程只能用数值分析的方法求解近似值。大多数偏微分方程,尤...原创 2019-05-10 19:56:46 · 3597 阅读 · 0 评论 -
pluskid机器学习博客学习笔记(1)
网上讲机器学习的资料很多,pluskid的博客是第一个让我眼前一亮的,本次记录:机器学习物语(1):世界观设定学习理论Learning TheoryPAC(Probably Approximately Correct,Leslie Valiant提出)可能近似正确。催生了Boosting算法SLT(Statistical Learning Theary,Vapnik提出),...原创 2019-05-10 19:51:21 · 496 阅读 · 0 评论 -
向量范数:1-范数、2-范数、无穷范数;矩阵范数;欧几里得度量
欧几里得度量又称为欧几里得距离,指的是欧几里得空间中两点间“普通”(即直线)距离。使用这个距离,欧氏空间成为度量空间。相关联的范数称为欧几里得范数。较早的文献称之为毕达哥拉斯度量。在欧几里得空间中,点x=(x1,...,xn)x = (x_1,...,x_n)x=(x1,...,xn)和y=(y1,...,yn)y = (y_1,...,y_n)y=(y1,...,yn)之间的...原创 2019-05-05 18:43:02 · 22369 阅读 · 4 评论 -
机器学习与量化交易∙笔记(2)
CAPM Model资本资产定价模型(Capital Asset Pricing Model )Portfolio资产组合 abs(a%) + abs(d%) + abs(c%) = 100%个股的CAPM model在t时刻,某只股票的汇报 = 市场的回报 + 一个残差。ri(t)=betai∗rm(t)+alphai(t)r_i(t) = beta_i * r_m(t) + ...原创 2019-04-25 13:18:54 · 820 阅读 · 0 评论 -
沪深300股票聚类可视化案例||tushare完整可运行代码逐行解释
上篇文章:《可视化股票市场结构||沪深300股票聚类可视化》逐行代码解释了sklearn中的一个案例:可视化股票市场结构。案例中采用的数据是美股。这篇文章将其移植到A股市场,看看我们的沪深300股票市场结构如何。采用的分类及可视化手段与sklearn案例完全一样。沪深300沪深300指数1是由上海和深圳证券市场中选取市值大、流动性好的300支A股作为样本编制而成的成份股指数。沪深...原创 2019-05-08 13:13:00 · 6206 阅读 · 163 评论 -
Lasso详解:历史、 数学表征、物理意义、 Python实现
Lasso的历史(1)相关研究人员及资料 研究Lasso的知名人员:yu bin, zhu ji, zhang tong, hui zou, yuan ming, Nicolai Meinshausen, Peter Bühlmann, Martin J. Wainwright, jianqing fan, Liza Levina, Peter Bickel,Tibshirani(L...原创 2019-05-05 16:23:57 · 5933 阅读 · 0 评论 -
通俗理解稀疏性sparsity假设:历史、数学表示、物理意义
稀疏性假设的历史(1)稀疏性Sparsity 百度百科Sparsity is the condition of not having enough of something;the property of being scanty or scattered; lacking denseness. [Vocabulary.com]稀疏性是一个应用较为广泛的概念,在不同行业领域都有其...原创 2019-05-05 15:13:26 · 8313 阅读 · 1 评论 -
协方差详解角度:历史、数学、物理意义
同一个数据集内部不同数据之间关系首先看什么是方差?方差是一个具体的数,用于度量一个数据集中各个数据之间的偏离程度,也就是该变量离其期望值的距离。方差(wiki)、均值、中位数、四分位数、分布…这些量都是用于描述一个数据集的某方面的度量。不同数据集之间关系那如何来描述不同数据集之间的关系呢?这就用到协方差(covariance维基百科)和相关系数(correlation c...原创 2019-05-04 18:07:10 · 2047 阅读 · 0 评论 -
鲁棒性通俗理解
鲁棒性(Robustness)维基百科计算机科学中,健壮性(英语:Robustness)是指一个计算机系统在执行过程中处理错误,以及算法在遭遇输入、运算等异常时继续正常运行的能力。 诸如模糊测试之类的形式化方法中,必须通过制造错误的或不可预期的输入来验证程序的健壮性。很多商业产品都可用来测试软件系统的健壮性。健壮性也是失效评定分析中的一个方面。机器学习中的鲁棒性「鲁棒性」为 ...原创 2019-04-28 18:37:46 · 52728 阅读 · 2 评论 -
机器学习与量化交易∙笔记(1)
Four Paradigms of Machine LearningConnetionism连接主义。Symbolism符号主义。可解释性FrequentistsBayesianConnetionism、Symbolism、Frequentists属同一类;Bayesian是单独的一类。60年代各类人工智能模型都已经出现了,70年代热度降低,80年代神经网络较热,但是黑盒属性导...原创 2019-04-23 19:56:39 · 1126 阅读 · 0 评论 -
sklearn.covariance.GraphicalLassoCV结构及用法(参数、属性、方法)
sklearn.covariance.GraphicalLassoCV 官方文档class sklearn.covariance.GraphicalLassoCV(alphas=4, n_refinements=4, cv=’warn’, tol=0.0001, enet_tol=0.0001, max_iter=100, mode=’cd’, n_jobs=None, verbose=Fa...原创 2019-05-01 20:50:12 · 3477 阅读 · 0 评论 -
随机游走(Random Walk)模型详解:历史||数学表示||物理意义
随机游走随机游走(Random Walk,缩写为 RW),是一种数学统计模型,它是一连串的轨迹所组成,其中每一次都是随机的。它能用来表示不规则的变动形式,如同一个人酒后乱步,所形成的随机过程记录。1905年,由卡尔·皮尔逊首次提出。随机游走的形式有:马尔可夫链或马可夫过程醉汉走路(drunkard’s walk)莱维飞行(Lévy flight)随机游走(random w...原创 2019-04-26 19:43:13 · 37457 阅读 · 3 评论 -
Bias-Variance Tradeoff(方差、偏差、误差)通俗理解
直译Bias:偏见,乖离率,偏重Variance:方差、分歧、不一致Tradeoff:权衡、参数折衷;(公平)交易;技术经济研究准确准确是两个概念:准、确。准是bias小,就是偏差小;确是variance小,就是分歧小,一致性强。Bias和Variance是针对Generalization(一般化,泛化)来说的。在机器学习中,我们用训练数据集去训练(学习)一个mo...原创 2019-04-26 18:36:40 · 3532 阅读 · 0 评论 -
机器学习与量化交易∙笔记(3)
数据存储方式.csvNoSQL 存储文本SQL 跟时间序列有关的金融数据数据格式交易所信息:上交所、深交所、标普数据来源Ticker/sumbol价格企业行为(stock split/dividend adjustments)国家假日数据关注点:容易出错的地方企业行为spikes用相关滤波器过滤噪点缺失数据MySql数据库基础用法基本用...原创 2019-04-25 19:51:06 · 474 阅读 · 0 评论