学习机器学习

机器学习 | 自然语言处理 | 数据挖掘 | python | 金融科技

排序:
默认
按更新时间
按访问量

范数知识整理

一、整体表述 x 的 0 范数:x 到零点的汉明距离 x 的 1 范数:x 到零点的曼哈顿距离 x 的 2 范数:x 到零点的欧氏距离 ... x 的 n 范数:x 到零点的 n 阶闵氏距离 x 的无穷范数:x 到零点的切比雪夫距离 二、范数的理解     函数与几何图形往往是有对...

2018-09-21 14:14:48

阅读数:11

评论数:0

用inotify+rsync实现快速的实时同步

转载:http://www.ttlsa.com/web/let-infotify-rsync-fast/ 背景 我们公司在用inotify+rsync做实时同步,来解决分布式集群文件一致性的问题。但当web文件越来越多(百万级数量html,jpg等小 文件),同步就越来越慢,根本做不到实时,按...

2018-09-19 13:11:31

阅读数:12

评论数:0

开始使用gensim入门

原文链接 介绍了基本概念,以及理解和使用gensim的基本元素,并提供了一个简单的例子。 核心概念和简单例子 从宏观来看,gensim提供了一个发现文档语义结构的工具,通过检查词出现的频率。gensim读取一段语料,输出一个向量,表示文档中的一个词。词向量可以用来训练各种分类器模型。这三个模...

2018-09-19 10:26:51

阅读数:7

评论数:0

《机器学习(周志华西瓜书)》学习笔记1:第三章-线性模型

一、线性回归     线性回归的基本思想是采用对输入样例各个特征进行线性加权的方式得到预测的输出,并将预测的输出和真实值的均方误差最小化。1)如果输入样例只有一个特征,那这个过程就是用一条直线去拟合平面直角坐标系上的点; 2)如果有两个特征,表现在平面直角坐标系上就是用一条直线将用不同标记(如X...

2018-09-09 13:05:29

阅读数:29

评论数:0

sklearn文本特征提取与“达观杯”文本智能处理挑战赛

参加的第一个线上比赛,经历了下比赛过程, 记录下。 这个比赛比较简单, 主要是要调参费时间,只提交了两次结果,下次比赛认真对待。 核心思路:文本矢量化后进行逻辑回归训练。 print("start....") ## 导入需要的库 import pan...

2018-09-08 14:29:02

阅读数:57

评论数:0

如何使用 scikit-learn 为机器学习准备文本数据

文本数据需要特殊处理,然后才能开始将其用于预测建模。 我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为整型或浮点型,以用作机器学习算法的输入,这一过程称为特征提取(或矢量化)。 scikit-learn 库提供易于使用的工具来对文本数据进行标记和特征提取。 在本教程中,...

2018-09-08 13:10:54

阅读数:27

评论数:0

提高机器学习模型性能的五个关键方法

如何提高机器学习模型性能, 可从五个关键方面入手。 1. 数据预处理 2. 特征工程 3. 机器学习算法 4. 模型集成与融合 5. 数据增强 以下是各个方面的具体分析和方法: [ 说明:1、这里主要是各个关键方法的知识汇总梳理,便于集中学习,具体的实际应用内容后续单独写。 2、参考...

2018-09-08 11:52:10

阅读数:96

评论数:0

用python创建的神经网络--mnist手写数字识别率达到98%

周末根据Tariq Rashid大神的指导,没有使用tensorflow等框架,用python编写了一个三层神经网络,并应用再mnist手写库识别上,经过多方面参数调优,识别率竟然达到了98%。  调优比较难,经验感觉特别宝贵,为避免时间长了忘记,记录整理如下。 目录 一、加载所需要的库 二...

2018-08-11 22:41:39

阅读数:51

评论数:0

kafka配置步骤整理

目录 一、参考 二、java jdk安装配置 三、Zookeeper安装配置 四、Kafka集群搭建 五、测试验证   一、参考 http://www.cnblogs.com/luotianshuai/p/5206662.html https://docs.confluent.i...

2018-08-08 17:23:37

阅读数:71

评论数:0

实时流Streaming大数据:Storm,Spark和Samza

     当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。 Apache Storm   在Storm中,你设计的实时计算图称为toplogy,将其以集群方式运行,其主节点会在工作节点之间分发代码并执行,在一个to...

2018-08-05 15:19:13

阅读数:33

评论数:0

为什么寄存器比内存快

计算机的存储层次(memory hierarchy)之中,寄存器(register)最快,内存其次,最慢的是硬盘。 同样都是晶体管存储设备,为什么寄存器比内存快呢? Mike Ash写了一篇很好的解释,非常通俗地回答了这个问题,有助于加深对硬件的理解。下面是阮一峰的简单翻译。 原因一:距离不...

2018-08-01 10:16:07

阅读数:65

评论数:0

Apache 流框架 Flink,Spark Streaming,Storm对比分析

本文由  网易云 发布。https://www.cnblogs.com/163yun/p/9007769.html 1.Flink架构及特性分析 Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供...

2018-07-31 21:59:34

阅读数:108

评论数:0

中国证券市场发展历程

  目录 一.百年历史 二.三十年发展历程 三.五个发展阶段   上海证券交易所、深圳证券交易所的成立标志着我国证券市场开始发展。1990年12月19日,上海证券交易所开业;1991年7月3日,深圳证券交易所正式开业。 中国证券市场作为一个新兴的高速成长的证券市场,在短短十几年的时间...

2018-07-28 19:38:28

阅读数:386

评论数:0

深入理解微服务架构

一  什么是微服务? 微服务存在多种定义。 如果搜索 Internet,会发现许多有用的资源,这些资源提供了自己的观点和定义。 但在微服务的以下大部分特性上,已广泛达成共识: 封装客户方案或业务方案。 你要解决什么问题? 由小型工程团队开发。 使用任何编程语言编写并使用任何框架。 由独立...

2018-07-09 15:10:06

阅读数:90

评论数:0

放弃Dubbo,选择最流行的Spring Cloud微服务架构实践与经验总结

在使用 Spring Cloud 之前,我们对微服务实践是没有太多的体会和经验的。从最初的开源软件云收藏来熟悉 Spring Boot,到项目中的慢慢使用,再到最后全面拥抱 Spring Cloud。这篇文章给大家介绍我们使用 Spring Boot / Cloud 一年多的经验总结。在开始之前我...

2018-07-09 13:34:32

阅读数:33

评论数:0

python进阶宝典19- pyautogui自动化鼠标和键盘操作

一  pyautogui模块简要说明## 使用 pyautogui 模块相关函数,可以模拟鼠标及键盘操作, 完整说明文档见: http://pyautogui.readthedocs.org/# pip install pyautogui# 要注意的是,模拟移动鼠标与击键可能太快,导致其他程序跟不...

2018-06-19 23:53:02

阅读数:491

评论数:0

《易中天中华史 - 第五卷 从春秋到战国》读书笔记

一 评郑伯克段于鄢郑国是周厉王之后,姓姬。公元前722年(即鲁隐公元年),郑庄公灭共叔段,春秋开始。郑庄公是春秋最早的雄主,之后才轮到齐桓和晋文。他即位时,作为西周最后一个封国,郑立国不过半个世纪。然而在他掌权的四十三年间,郑却崛起为中原第一大国。这样一位雄霸天下的政治家,为什么会让叔段肆意妄为长...

2018-06-19 23:47:36

阅读数:118

评论数:0

python进阶宝典18- 使用Pillow模块操作图像

一  颜色与RGBA简述二  图像基本操作(打开、保存、创建、复制、裁剪、粘贴、平铺、调整大小、旋转、翻转、获取及修改像素。。。)三  综合例子:为许多图像的右下角添加徽标四  ImageDraw 绘图与绘制文本具体说明及注释见代码,如下:## 使用Pillow模块操作图像 ## 1.颜色与RGB...

2018-06-18 11:59:25

阅读数:67

评论数:0

量化投资与策略

【说明:相关内容由聚宽平台 https://www.joinquant.com 合并整理】一   什么是量化投资?提起量化投资,就不得不提量化投资的标杆——华尔街传奇人物詹姆斯·西蒙斯(James Simons)。通过将数学理论巧妙融合到投资的实战之中,西蒙斯成为了投资界中首屈一指的“模型先生”。...

2018-06-16 20:58:28

阅读数:250

评论数:0

使用anaconda安装tensorflow (windows10环境)

已有环境:python3.6.1anaconda隔离管理多个环境,互不影响。这里,在anaconda中安装最新的python3.6.5 版本。linux环境下使用anaconda安装tensorflow步骤见:https://blog.csdn.net/ebzxw/article/details/...

2018-06-15 22:42:06

阅读数:661

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭