自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

学习机器学习

机器学习 | python | 金融科技 | 互联网运营

  • 博客(123)
  • 收藏
  • 关注

原创 互联网金融跨界合作优势分析及未来发展趋势

【好几年前发的一篇文章,在网上看到了转载 。 不过一些图表丢失了】

2018-11-27 15:02:22 679

原创 学习方法:坚持输出学习法

    只有输入的学习很难形成有效的学习,必须坚持输出学习法。1、要有输出目标的学习,并且注重随时整理、随时输出。比如随笔、blog、文章、论文等各种形式。2、要带着问题去学习,特别是专项学习,要先列出问题清单、知识框架,并输出结果与答案。具体阅读学习的技巧很多,可以视情况采取精读、速度、部分熟读、通读、比较阅读等各种方法。3、模仿他人的诀窍就是经常锻炼,从鹦鹉学舌开始。特别是某个领域...

2018-11-18 20:53:18 2308 1

原创 故事库

     一只白色的兔子,被一个穿着红裙子的小女孩抱在怀里,在小女孩的前面,有一个穿着黑色燕尾服的人正在变魔术,他从他黑色的帽子里掏出一本书,书上突然飘出一只幽灵,这时一道闪电从空中劈下来,幽灵瞬间就消失不见了,小女孩周围的观众都发出惊呼声。回到家后,小女孩拿出日记本想把刚刚看到的记下来,她的日记本竟然是大红色的、三角形的。这时候小女孩的母亲却突然推开房门进来,说要给她讲一个故事。    我一...

2018-10-23 19:29:57 285

转载 Softmax回归

Contents  [hide] 1 简介 2 代价函数 3 Softmax回归模型参数化的特点 4 权重衰减 5 Softmax回归与Logistic 回归的关系 6 Softmax 回归 vs. k 个二元分类器 7 中英文对照 8 中文译者 简介在本节中,我们介绍Softmax回归模型,该模型是lo...

2018-10-08 08:11:37 266

原创 机器学习算法逻辑整理---逻辑回归算法

2018-10-07 22:14:52 298

原创 LogisticRegression模型参数整理

sklearn 的 LogisticRegression 模型的相关参数整理:

2018-10-07 22:05:54 4235

原创 向量与矩阵求导与实例分析

【说明】1. 相关内容经过诸多学习内容整理2.  比较权威的学习源可参考维基百科  https://en.wikipedia.org/wiki/Matrix_calculus#Scalar-by-vector_identities3. 机器学习关联内容学习: 1)西瓜书第55页多元线性回归涉及到的公式推导   2)机器学习实战 第138页 【目录】一、布局的概念二、一个求导...

2018-10-07 21:34:07 4559 2

原创 范数知识整理

一、整体表述x 的 0 范数:x 到零点的汉明距离x 的 1 范数:x 到零点的曼哈顿距离x 的 2 范数:x 到零点的欧氏距离...x 的 n 范数:x 到零点的 n 阶闵氏距离x 的无穷范数:x 到零点的切比雪夫距离二、范数的理解    函数与几何图形往往是有对应的关系,这个很好想象,特别是在三维以下的空间内,函数是几何图像的数学概括,而几何图像是函数的高度形象...

2018-09-21 14:14:48 3261

转载 用inotify+rsync实现快速的实时同步

转载:http://www.ttlsa.com/web/let-infotify-rsync-fast/背景我们公司在用inotify+rsync做实时同步,来解决分布式集群文件一致性的问题。但当web文件越来越多(百万级数量html,jpg等小 文件),同步就越来越慢,根本做不到实时,按照网上的调优方法都尝试过,问题根本没有解决。经过我一翻细致研究,终于把慢的核心问题研究明白,先总结一句...

2018-09-19 13:11:31 188

转载 开始使用gensim入门

原文链接介绍了基本概念,以及理解和使用gensim的基本元素,并提供了一个简单的例子。核心概念和简单例子从宏观来看,gensim提供了一个发现文档语义结构的工具,通过检查词出现的频率。gensim读取一段语料,输出一个向量,表示文档中的一个词。词向量可以用来训练各种分类器模型。这三个模型是理解gensim的核心概念,所以接下来依次介绍。同时,会以一个简单例子贯穿讲述。语料语料是...

2018-09-19 10:26:51 578

原创 《机器学习(周志华西瓜书)》学习笔记1:第三章-线性模型

一、线性回归    线性回归的基本思想是采用对输入样例各个特征进行线性加权的方式得到预测的输出,并将预测的输出和真实值的均方误差最小化。1)如果输入样例只有一个特征,那这个过程就是用一条直线去拟合平面直角坐标系上的点; 2)如果有两个特征,表现在平面直角坐标系上就是用一条直线将用不同标记(如XX和OO)区分的输入样例分割开来;3)如果有两个以上特征,那就会映射到高维空间,用超平面来分割。 ...

2018-09-09 13:05:29 1838

原创 sklearn文本特征提取与“达观杯”文本智能处理挑战赛

参加的第一个线上比赛,经历了下比赛过程, 记录下。这个比赛比较简单, 主要是要调参费时间,只提交了两次结果,下次比赛认真对待。核心思路:文本矢量化后进行逻辑回归训练。print("start....")## 导入需要的库import pandas as pdfrom sklearn.linear_model import LogisticRegressionfrom sk...

2018-09-08 14:29:02 821

转载 如何使用 scikit-learn 为机器学习准备文本数据

文本数据需要特殊处理,然后才能开始将其用于预测建模。我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为整型或浮点型,以用作机器学习算法的输入,这一过程称为特征提取(或矢量化)。scikit-learn 库提供易于使用的工具来对文本数据进行标记和特征提取。在本教程中,您可以学到如何使用 scikit-learn 为 Python 中的预测建模准备文本数据。完成本教...

2018-09-08 13:10:54 391

原创 提高机器学习模型性能的五个关键方法

如何提高机器学习模型性能, 可从五个关键方面入手。1. 数据预处理2. 特征工程3. 机器学习算法4. 模型集成与融合5. 数据增强以下是各个方面的具体分析和方法:[ 说明:1、这里主要是各个关键方法的知识汇总梳理,便于集中学习,具体的实际应用内容后续单独写。 2、参考整理了很多大拿的文章和资料,但忘了记录来处,如有不适当转载的,请留言,我看到后第一时间删除。 ]第...

2018-09-08 11:52:10 33231 4

原创 用python创建的神经网络--mnist手写数字识别率达到98%

周末根据Tariq Rashid大神的指导,没有使用tensorflow等框架,用python编写了一个三层神经网络,并应用再mnist手写库识别上,经过多方面参数调优,识别率竟然达到了98%。  调优比较难,经验感觉特别宝贵,为避免时间长了忘记,记录整理如下。目录一、加载所需要的库二、定义神经网络类三、创建神经网络对象并用MNIST训练集训练四、用测试集测试准确率五、参数...

2018-08-11 22:41:39 64808 64

原创 kafka配置步骤整理

目录一、参考二、java jdk安装配置三、Zookeeper安装配置四、Kafka集群搭建五、测试验证 一、参考http://www.cnblogs.com/luotianshuai/p/5206662.htmlhttps://docs.confluent.io/2.0.0/kafka/ssl.htmlhttp://www.cnblogs.com/huxi...

2018-08-08 17:23:37 21170

转载 实时流Streaming大数据:Storm,Spark和Samza

     当前有许多分布式计算系统能够实时处理大数据,这篇文章是对Apache的三个框架进行比较,试图提供一个快速的高屋建瓴地异同性总结。Apache Storm  在Storm中,你设计的实时计算图称为toplogy,将其以集群方式运行,其主节点会在工作节点之间分发代码并执行,在一个topology中,数据是在spout之间传递,它发射数据流作为不可变的key-value匹配集合,这种k...

2018-08-05 15:19:13 972

转载 为什么寄存器比内存快

计算机的存储层次(memory hierarchy)之中,寄存器(register)最快,内存其次,最慢的是硬盘。同样都是晶体管存储设备,为什么寄存器比内存快呢?Mike Ash写了一篇很好的解释,非常通俗地回答了这个问题,有助于加深对硬件的理解。下面是阮一峰的简单翻译。原因一:距离不同距离不是主要因素,但是最好懂,所以放在最前面说。内存离CPU比较远,所以要耗费更长的时间读取。...

2018-08-01 10:16:07 297

转载 Apache 流框架 Flink,Spark Streaming,Storm对比分析

本文由  网易云 发布。https://www.cnblogs.com/163yun/p/9007769.html1.Flink架构及特性分析Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一...

2018-07-31 21:59:34 1511

转载 深入理解微服务架构

一  什么是微服务?微服务存在多种定义。 如果搜索 Internet,会发现许多有用的资源,这些资源提供了自己的观点和定义。 但在微服务的以下大部分特性上,已广泛达成共识:封装客户方案或业务方案。 你要解决什么问题? 由小型工程团队开发。 使用任何编程语言编写并使用任何框架。 由独立控制版本、部署及缩放的代码和(可选)状态组成。 通过定义完善的接口和协议来与其他微服务交互。 具有...

2018-07-09 15:10:06 1575

转载 放弃Dubbo,选择最流行的Spring Cloud微服务架构实践与经验总结

在使用 Spring Cloud 之前,我们对微服务实践是没有太多的体会和经验的。从最初的开源软件云收藏来熟悉 Spring Boot,到项目中的慢慢使用,再到最后全面拥抱 Spring Cloud。这篇文章给大家介绍我们使用 Spring Boot / Cloud 一年多的经验总结。在开始之前我们先介绍几个概念,什么是微服务,它的特点是什么? Spring Boot / Cloud 都做了那些事...

2018-07-09 13:34:32 219

原创 python进阶宝典19- pyautogui自动化鼠标和键盘操作

一  pyautogui模块简要说明## 使用 pyautogui 模块相关函数,可以模拟鼠标及键盘操作, 完整说明文档见: http://pyautogui.readthedocs.org/# pip install pyautogui# 要注意的是,模拟移动鼠标与击键可能太快,导致其他程序跟不上,并且程序可能失去控制,# 需要掌握如何从问题中恢复,至少要能中止它。# 防止或恢复GUI自动化问题...

2018-06-19 23:53:02 7170 3

原创 《易中天中华史 - 第五卷 从春秋到战国》读书笔记

一 评郑伯克段于鄢郑国是周厉王之后,姓姬。公元前722年(即鲁隐公元年),郑庄公灭共叔段,春秋开始。郑庄公是春秋最早的雄主,之后才轮到齐桓和晋文。他即位时,作为西周最后一个封国,郑立国不过半个世纪。然而在他掌权的四十三年间,郑却崛起为中原第一大国。这样一位雄霸天下的政治家,为什么会让叔段肆意妄为长达二十二年之久?难道他对段的狼子野心,事先竟毫无察觉,也没有任何人提醒和劝阻?灭叔段需要一个罪名,这个...

2018-06-19 23:47:36 1367

原创 python进阶宝典18- 使用Pillow模块操作图像

一  颜色与RGBA简述二  图像基本操作(打开、保存、创建、复制、裁剪、粘贴、平铺、调整大小、旋转、翻转、获取及修改像素。。。)三  综合例子:为许多图像的右下角添加徽标四  ImageDraw 绘图与绘制文本具体说明及注释见代码,如下:## 使用Pillow模块操作图像## 1.颜色与RGBA# 计算机程序通常将图像的颜色表示为RGBA值,这是一组数字,表示指定颜色中的红、绿、蓝(加色模...

2018-06-18 11:59:25 935

原创 量化投资与策略

【说明:相关内容由聚宽平台 https://www.joinquant.com 合并整理】一   什么是量化投资?提起量化投资,就不得不提量化投资的标杆——华尔街传奇人物詹姆斯·西蒙斯(James Simons)。通过将数学理论巧妙融合到投资的实战之中,西蒙斯成为了投资界中首屈一指的“模型先生”。由其运作的大奖章基金(Medallion)在1989-2009的二十年间,平均年收益率为35%,若算上...

2018-06-16 20:58:28 12017

原创 使用anaconda安装tensorflow (windows10环境)

已有环境:python3.6.1anaconda隔离管理多个环境,互不影响。这里,在anaconda中安装最新的python3.6.5 版本。linux环境下使用anaconda安装tensorflow步骤见:https://blog.csdn.net/ebzxw/article/details/80693152一. 安装anaconda1. 下载地址: https://www.anaconda....

2018-06-15 22:42:06 156468 90

原创 anaconda出现CondaHTTPError问题解决办法

一   .condarc(conda 配置文件)Configuration — Conda documentation.condarc以点开头,一般表示 conda 应用程序的配置文件,在用户的家目录(windows:C:\\users\\username\\,linux:/home/username/)。但对于.condarc配置文件,是一种可选的(optional)运行期配置文件,其默认情况下...

2018-06-15 19:15:30 103780 29

转载 TO Python小白:Anaconda入门使用指南

原文出处: 鱼心fishstar   打算学习 Python 来做数据分析的你,是不是在开始时就遇到各种麻烦呢?到底该装 Python2 呢还是 Python3 ?为什么安装 Python 时总是出错?怎么安装工具包呢?为什么提示说在安装这个工具前必须先安装一堆其他不明所以的工具?相信大多数 Python 的初学者们都曾为环境问题而头疼不已,但你并不孤独,大家都是这么折腾过来的。为了在入门时少走弯...

2018-06-14 17:43:06 906 2

原创 机器学习环境搭建笔记

搭建一个新环境,具体过程记录如下:

2018-06-14 15:10:06 2602

原创 如何打开.ipynb文件

一  安装需要安装ipython notebook,IPython Notebook是Web based IPython封装,可以展现富文本,使得整个工作可以以笔记的形式展现、存储,对于交互编程、学习非常方便。pip install ipythonpip install “ipython[notebook]”二  运行使用时,直接在cmd命令行窗口启动C:\Users\py>jupyter ...

2018-06-14 15:01:12 12866 1

原创 python如何将聚宽平台数据倒到本地文件进行量化研究

聚宽平台可以方便进行策略编写、投资研究、数据回测等各项功能,云端的python环境可以很好支持。不过使用下来也有些不便之处,比如代码调试困难,虚拟机内存1G限制等问题。有时候需要将数据倒到本地调试代码。下面简单讲下实现过程。一. 安装聚宽的jqdatasdk库必须通过这个库使用JQData。JQData是聚宽数据团队专门为有志于从事量化投资的金融机构、研究人员以及个人量化爱好者提供的本地量化金融数...

2018-06-14 09:11:09 21188

原创 python进阶宝典17- 收发邮件

一. 发送电子邮件SMTP二.用IMAP获取和操作电子邮件三. 例子: 向会员发送会费提醒电子邮件四. 另一个涉及中文转化的例子具体内容见代码及相关注释。## 发送电子邮件SMTPimport smtplibsmtpObj = smtplib.SMTP('mail.testmail.com',25) # 创建对象,建立服务器连接# 如果SMTP()调用不成功,那么SMTP服务器可能不支持...

2018-06-13 22:20:33 1386

转载 Impala与Presto性能比较

【转自 https://blog.csdn.net/u012551524/article/details/79124532】下面是Presto、Impala这两种典型的内存数据库的简单测试比较,当然这种内存数据库类似的还有spark sql,这种数据库在大数据量,多表关联查询时,会展现出自己的优势,下面是一组impala和presto的性能对比图:环境准备:1台32G内存、2台16G内存,没有完全...

2018-06-13 08:28:06 13458 1

转载 SQLAlchemy 和其他的 ORM 框架

原文出处: Xiaonuo   译文出处:开源中国   Python ORM 概览作为一个美妙的语言,Python 除了 SQLAlchemy 外还有很多ORM库。在这篇文章里,我们将来看看几个流行的可选 ORM 库,以此更好地窥探到Python ORM 境况。通过写一段脚本来读写2个表 ,person 和 address 到一个简单的数据库,我们能更好地理解每个ORM库的优缺点。SQLObjec...

2018-06-12 23:14:18 443

原创 人工智能的发展历程

目录一.  政策二. 主要发展阶段三. 60年历程关键事件一.  政策       为推动我国人工智能规模化应用,全面提升产业发展智能化水平,2017年7月20日,国务院印发了《新一代人工智能发展规划》,并将在制造、金融、农业、物流、商务、家居等重点行业和领域开展人工智能应用试点示范工作。就金融行业而言,《规划》指出,要在智能金融方面,建立金融大数据系统,提升金融多媒体数据处理...

2018-06-02 13:38:08 130758 6

原创 《不可思议的年代》读书笔记

《不可思议的年代》读书笔记

2018-05-30 10:50:25 1445

转载 python- pandas cumsum用法

Cumsum :计算轴向元素累加和,返回由中间结果组成的数组第一部分:求累计次数(转自https://blog.csdn.net/qq_22238533/article/details/72900634)本文主要是针对 cumsum函数的一些用法。具体应用场景看下面的数据集。第一列是userID,第二列是安装的时间,第三列是安装的次数。我们现在想做一件事情。就是统计用户在某一天前累计的安装次数。譬...

2018-05-29 11:14:16 16980

原创 python中numpy矩阵运算等整理

一  array对象乘法运算import numpy as npa=np.array([[1,2],[3,4]])b=np.array([[4,3],[2,1]])print(a*b)print(np.matmul(a,b))import numpy as npa=np.array([[1,2],[3,4]])b=np.array([4,3])print(a*b)p...

2018-05-29 10:23:45 19816

原创 python优雅代码编写技巧【持续更新到20条】

更安全、更严谨、更简单、更优雅!!! 1.简化导入模块名简化调用代码, 更简单!#Bad codeimport urllib.requesturl = r'http://www.csdn.com'req = urllib.request.Request(url)response = urllib.request.urlopen(req)#Good codefrom ...

2018-05-27 20:18:39 1296

原创 python巧妙算法收集【持续更新】

一  巧算列表中位数中位数是一个可将数值集合划分为相等的上下两部分的一个数值。如果列表数据的个数是奇数,则列表中间那个数据就是列表数据的中位数;如果列表数据的个数是偶数,则列表中间那2个数据的算术平均值就是列表数据的中位数。在这个任务里,你将得到一个含有自然数的非空数组(X)。你必须把它分成上下两部分,找到中位数。 注意:由于列表初始状态并非排序状态,在比较大小前要进行sort排序。输入: 一个作...

2018-05-27 19:10:41 437

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除