学习机器学习

机器学习 | 自然语言处理 | 数据挖掘 | python | 金融科技

排序:
默认
按更新时间
按访问量

互联网金融跨界合作优势分析及未来发展趋势

【好几年前发的一篇文章,在网上看到了转载 。 不过一些图表丢失了】

2018-11-27 15:02:22

阅读数:12

评论数:0

学习方法:坚持输出学习法

    只有输入的学习很难形成有效的学习,必须坚持输出学习法。 1、要有输出目标的学习,并且注重随时整理、随时输出。比如随笔、blog、文章、论文等各种形式。 2、要带着问题去学习,特别是专项学习,要先列出问题清单、知识框架,并输出结果与答案。具体阅读学习的技巧很多,可以视情况采取精读、速度、...

2018-11-18 20:53:18

阅读数:52

评论数:1

故事库

     一只白色的兔子,被一个穿着红裙子的小女孩抱在怀里,在小女孩的前面,有一个穿着黑色燕尾服的人正在变魔术,他从他黑色的帽子里掏出一本书,书上突然飘出一只幽灵,这时一道闪电从空中劈下来,幽灵瞬间就消失不见了,小女孩周围的观众都发出惊呼声。回到家后,小女孩拿出日记本想把刚刚看到的记下来,她的日记...

2018-10-23 19:29:57

阅读数:26

评论数:0

Softmax回归

Contents  [hide] 1 简介 2 代价函数 3 Softmax回归模型参数化的特点 4 权重衰减 5 Softmax回归与Logistic 回归的关系 6 Softmax 回归 vs. k 个二元分类器 7 中英文...

2018-10-08 08:11:37

阅读数:38

评论数:0

机器学习算法逻辑整理---逻辑回归算法

2018-10-07 22:14:52

阅读数:35

评论数:0

LogisticRegression模型参数整理

sklearn 的 LogisticRegression 模型的相关参数整理:

2018-10-07 22:05:54

阅读数:69

评论数:0

向量与矩阵求导与实例分析

【说明】 1. 相关内容经过诸多学习内容整理 2.  比较权威的学习源可参考维基百科  https://en.wikipedia.org/wiki/Matrix_calculus#Scalar-by-vector_identities 3. 机器学习关联内容学习: 1)西瓜书第55页多元线性...

2018-10-07 21:34:07

阅读数:76

评论数:0

范数知识整理

一、整体表述 x 的 0 范数:x 到零点的汉明距离 x 的 1 范数:x 到零点的曼哈顿距离 x 的 2 范数:x 到零点的欧氏距离 ... x 的 n 范数:x 到零点的 n 阶闵氏距离 x 的无穷范数:x 到零点的切比雪夫距离 二、范数的理解     函数与几何图形往往是有对...

2018-09-21 14:14:48

阅读数:69

评论数:0

用inotify+rsync实现快速的实时同步

转载:http://www.ttlsa.com/web/let-infotify-rsync-fast/ 背景 我们公司在用inotify+rsync做实时同步,来解决分布式集群文件一致性的问题。但当web文件越来越多(百万级数量html,jpg等小 文件),同步就越来越慢,根本做不到实时,按...

2018-09-19 13:11:31

阅读数:41

评论数:0

开始使用gensim入门

原文链接 介绍了基本概念,以及理解和使用gensim的基本元素,并提供了一个简单的例子。 核心概念和简单例子 从宏观来看,gensim提供了一个发现文档语义结构的工具,通过检查词出现的频率。gensim读取一段语料,输出一个向量,表示文档中的一个词。词向量可以用来训练各种分类器模型。这三个模...

2018-09-19 10:26:51

阅读数:31

评论数:0

《机器学习(周志华西瓜书)》学习笔记1:第三章-线性模型

一、线性回归     线性回归的基本思想是采用对输入样例各个特征进行线性加权的方式得到预测的输出,并将预测的输出和真实值的均方误差最小化。1)如果输入样例只有一个特征,那这个过程就是用一条直线去拟合平面直角坐标系上的点; 2)如果有两个特征,表现在平面直角坐标系上就是用一条直线将用不同标记(如X...

2018-09-09 13:05:29

阅读数:160

评论数:0

sklearn文本特征提取与“达观杯”文本智能处理挑战赛

参加的第一个线上比赛,经历了下比赛过程, 记录下。 这个比赛比较简单, 主要是要调参费时间,只提交了两次结果,下次比赛认真对待。 核心思路:文本矢量化后进行逻辑回归训练。 print("start....") ## 导入需要的库 import pan...

2018-09-08 14:29:02

阅读数:179

评论数:0

如何使用 scikit-learn 为机器学习准备文本数据

文本数据需要特殊处理,然后才能开始将其用于预测建模。 我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为整型或浮点型,以用作机器学习算法的输入,这一过程称为特征提取(或矢量化)。 scikit-learn 库提供易于使用的工具来对文本数据进行标记和特征提取。 在本教程中,...

2018-09-08 13:10:54

阅读数:86

评论数:0

提高机器学习模型性能的五个关键方法

如何提高机器学习模型性能, 可从五个关键方面入手。 1. 数据预处理 2. 特征工程 3. 机器学习算法 4. 模型集成与融合 5. 数据增强 以下是各个方面的具体分析和方法: [ 说明:1、这里主要是各个关键方法的知识汇总梳理,便于集中学习,具体的实际应用内容后续单独写。 2、参考...

2018-09-08 11:52:10

阅读数:1592

评论数:0

用python创建的神经网络--mnist手写数字识别率达到98%

周末根据Tariq Rashid大神的指导,没有使用tensorflow等框架,用python编写了一个三层神经网络,并应用再mnist手写库识别上,经过多方面参数调优,识别率竟然达到了98%。  调优比较难,经验感觉特别宝贵,为避免时间长了忘记,记录整理如下。 目录 一、加载所需要的库 二...

2018-08-11 22:41:39

阅读数:353

评论数:1

kafka配置步骤整理

目录 一、参考 二、java jdk安装配置 三、Zookeeper安装配置 四、Kafka集群搭建 五、测试验证   一、参考 http://www.cnblogs.com/luotianshuai/p/5206662.html https://docs.confluent.i...

2018-08-08 17:23:37

阅读数:653

评论数:0

实时流Streaming大数据:Storm,Spark和Samza

     当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。 Apache Storm   在Storm中,你设计的实时计算图称为toplogy,将其以集群方式运行,其主节点会在工作节点之间分发代码并执行,在一个to...

2018-08-05 15:19:13

阅读数:70

评论数:0

为什么寄存器比内存快

计算机的存储层次(memory hierarchy)之中,寄存器(register)最快,内存其次,最慢的是硬盘。 同样都是晶体管存储设备,为什么寄存器比内存快呢? Mike Ash写了一篇很好的解释,非常通俗地回答了这个问题,有助于加深对硬件的理解。下面是阮一峰的简单翻译。 原因一:距离不...

2018-08-01 10:16:07

阅读数:75

评论数:0

Apache 流框架 Flink,Spark Streaming,Storm对比分析

本文由  网易云 发布。https://www.cnblogs.com/163yun/p/9007769.html 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供...

2018-07-31 21:59:34

阅读数:134

评论数:0

中国证券市场发展历程

  目录 一.百年历史 二.三十年发展历程 三.五个发展阶段   上海证券交易所、深圳证券交易所的成立标志着我国证券市场开始发展。1990年12月19日,上海证券交易所开业;1991年7月3日,深圳证券交易所正式开业。 中国证券市场作为一个新兴的高速成长的证券市场,在短短十几年的时间...

2018-07-28 19:38:28

阅读数:1321

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭