自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Richard_More的博客

不忘初心

  • 博客(69)
  • 资源 (2)
  • 收藏
  • 关注

原创 信息抽取学习笔记

第二篇 主要技术和代表性论文2.1 信息抽取概况 目前的信息抽取多是基于句子为单位进行分析。篇章性推理是NLP研究的一个难点,后面将会叙述在我实际工作中关于这一方面的经验总结。 2.2 命名实体识别 命名实体识别是信息抽取的基础,是第一步,也是必须的一步。命名实体识别主要识别句子中出现的实体名。传统的实体名包括Person,Location,Organization,Time。具体的实体...

2018-08-24 13:11:29 10426 2

原创 中文自然语言工具包调查研究

中文自然语言工具包调查研究1.1 Stanford corenlp中文模块中文支持任务:支持封闭式命名实体识别,语义依存分析,句法分析,不支持语义角色标注,开放信息提取。Java软件包。是目前使用较广的综合性自然语言处理包。扩展性方面[二次开发]:提供了Java源代码可以做二次开发 在线演示平台:http://corenlp.run/ 官网主页:htt...

2018-08-24 13:04:15 806

原创 知识库构建相关技术前沿动态(健康管理领域)

知识库构建相关技术前沿动态(健康管理领域) 目前构建知识库的技术可以分为两大类,一种利用机器学习,另外一种bootstrapping pattern。 若把知识库的理解分为实体之间的关系图谱,主要可以分为两个NLP任务:(1)实体名识别(NameEntity Recognition)(2)关系提取。(RelationExtraction)。这两个任务又和信息提取有很大的渊源(Infor

2017-09-22 14:41:52 3572

原创 spark集群上如何配置深度学习elephas框架的操作流程(shell版)

这个博客是回答 elephas解析第一篇  中评论区中的问题,我就把自己在一个自己的集群上面,把搭建深度学习框架elephas,theano,keras,tensorflow的操作流程post在这里。我在安装之前的集群信息如下:4台ubuntu15的机器,其中一台配置host为master,其他四台为slave02,slave03,slave04.在这个4台已经配置好hadoop集群,

2016-12-01 14:48:32 2628 3

转载 验证码的现在与未来

验证码的现在与未来2011年11月02日13:00爱范儿我要评论(0)字号:T|T什么是验证码”验证码“( CAPTCHA )其实并不是各位网友总是在不同网站上看到的难以辨认的字母组合的代名词,而是“全自动区分计算机和人类的图灵测试”的俗称,顾名思义,它的作用是区分计算机和人类。在 CAPTCHA 测试中,作为

2016-11-27 15:13:58 1365

原创 记一次使用开源代码的微博爬虫的经历

记一次使用开源代码的微博爬虫的经历开源可以让我们的生活更佳美好。之前一直打算把写一个的新浪微博爬虫,然后将数据存入数据库,从而以支持我后续的科研数据分析。最初,我去看看了微博官方提供的开发者API,结果这个API受限太大,比如我用我的账号,生成的accesstoken只能爬取我自己微博的数据,这就让我直接放弃了这个途径。紧接着,我花了2天的时间把微博的API搞清楚,好了,万事具备,

2016-11-26 19:29:46 4976 2

原创 mnist_mlp_spark_CC.py

from __future__ import absolute_importfrom __future__ import print_functionfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers.core import Dense, Dropout, Activat

2016-11-24 21:45:41 1378

原创 解析Spark开源框架elephas之二

run一个elephas例子下面基于Spark,本地运行一个例子,这个代码可以在http://download.csdn.net/detail/richard_more/9691563 这里下载。spark-submit --master local[3] mnist_mlp_spark_CC.py 我的部分结果见下图:16/11/23 20:28:05 INF

2016-11-23 20:55:54 2195

原创 解析Spark开源框架elephas之一

写在前面的话elephas是一个把python深度学习框架keras衔接到Spark集群的第三方python包。由于这个版本并不稳定,并且没有什么资料,我打算剖析其源代码。分析代码要从其主程序开始,就是spark_model.py,其网址在 https://github.com/maxpumperla/elephas/blob/master/elephas/spark_model.

2016-11-19 23:14:30 4126 16

转载 如何基于Spark做深度学习:从Mllib到keras,elephas

Spark ML model pipelines on Distributed Deep Neural NetsThis notebook describes how to build machine learning pipelines with Spark ML for distributed versions of Keras deep learning models. As data set

2016-11-18 12:58:24 5145

原创 评估深度学习架构在Spark集群的应用:从theano,keras到elephas

最终目标最终目标:为了提高机器学习特别是深度学习的计算速度。提供的速度有三个方法:让算法的变得更加聪明(数据结构);让单个机器的计算能力增强(更好的CPU/GPU);让计算并行化(多线程;Hadoop/Spark)。本文仅仅探索第三种方式:评估不同的深度学习框架(是否支持GPU,易于实现,速度快)以及其如何并行化于分布式的集群之上。theano是一个python的包,用数组向量来定义和计算

2016-11-18 12:33:23 4736

原创 另类数据Alternative Data行业调查

Alternative Data行业调查1. 另类数据的定义:“Alternative data in finance refers to any data that is not traditionally considered financial data but nonetheless offers investors market insights. It is often

2016-11-15 00:08:52 5811

转载 人工智能在对冲基金的崛起

作者 本·格策尔 全文翻译自《连线》“The Rise of the Artificially Intelligent Hedge Fund”一文今年1月下旬,本·格策尔(Ben Goertzel)和他的公司Aidyia启动了一只对冲基金,使用人工智能来进行所有的股票交易,无需任何人工干预。“哪怕我们都死了,”人工智能资深专家、Aidyia首席科学家格策尔说,“它也会继续交易。” 此言确然

2016-11-09 16:15:40 3385

转载 C语言中的.h文件的作用

C语言中的.h文件和我认识由来已久,其使用方法虽不十分复杂,但我却是经过了几个月的“不懂”时期,几年的“一知半解”时期才逐渐认识清楚他的本来面目。揪其原因,我的 驽钝和好学而不求甚解固然是原因之一,但另外还有其他原因。原因一:对于较小的项目,其作用不易被充分开发,换句话说就是即使不知道他的详细使用方法,项 目照样进行,程序在计算机上照样跑。原因二:现在的各种C语言书籍都是只对C语言的语法进行详

2016-11-08 21:43:42 960

原创 金融科技之量化文本研究框架

金融科技之量化文本系列文本系列主要从新闻,投资者讨论,研报三个文本源开展量化投资研究。新闻是一般是事实性描述,投资者讨论是情绪性文本,而研报更多的是逻辑性文本。1. 探索新闻与股价数据来源:雪球网上的4000条;财经类网站包括新浪财经,凤凰财经等。问题的关键是爬虫任务的持续性,每天都要定时爬取事先指定的网站清单。1.1.建立个股新闻与未来的股价波动之间的对应关系

2016-10-20 17:19:06 3112 1

转载 Dropout with Theano

Dropout with TheanoOct 12, 201616 minute readAlmost everyone working with Deep Learning would have heard a smattering aboutDropout. Albiet a simple concept(introduced a couple of years ago),

2016-10-14 15:49:09 1571

转载 LR深入理解

本文转自http://blog.csdn.net/cyh_24/article/details/50359055写这篇博客的动力是源于看到了下面这篇微博:我在看到这篇微博的时候大为触动,因为,如果是rickjin来面试我,我想我会死的很惨,因为他问的问题我基本都回答不上来。所以,痛定思痛,我决定今后对一些算法的理解不能只是停留在表面,而应该至少往前推一步,尝试看得更远一些。

2016-10-09 11:02:29 7987

原创 PRML读书笔记-我对机器学习的认识

最近有时间把Christopher M Bishop的《Pattern Recognition and Machine Learning》(PRML)温习了一遍,这本书可以说是机器学习的经典学习之作。以前在上机器学习这么课的时候,很多细节还没联系到,结果在读论文中就显得捉襟见肘。本文打算理清楚这本书的脉络,也顺便为学习机器学习的人打下一个学习路线图。1. 排除两块内容现排除第五章的

2016-10-08 19:42:27 6317 2

翻译 人人都能用Python写出LSTM-RNN的代码!

1. 概要我的最佳学习法就是通过玩具代码,一边调试一边学习理论。这篇博客通过一个非常简单的python玩具代码来讲解递归神经网络。那么依旧是废话少说,放‘码’过来!Python123456789101112131415161718192021222324252627282

2016-10-02 14:45:20 3578 1

转载 Anyone Can Learn To Code an LSTM-RNN in Python

Anyone Can Learn To Code an LSTM-RNN in Python (Part 1:Summary: I learn best with toy code that I can play with. This tutorial teaches Recurrent Neural Networks via a very simple toy example, a

2016-10-02 14:22:28 2166

翻译 基于RNN做语义理解和词向量

基于RNN做语义理解1.前言本文翻译的文章是Grégoire Mesnil, Xiaodong He, Li Deng and Yoshua Bengio - Investigation of Recurrent Neural Network Architect

2016-10-02 11:18:49 8024

转载 Recurrent Neural Networks with Word Embeddings¶

Recurrent Neural Networks with Word EmbeddingsSummaryIn this tutorial, you will learn how to:learn Word Embeddingsusing Recurrent Neural Networks architectureswith Context Windowsin order

2016-10-01 22:07:55 1965

翻译 理解 LSTM 网络

理解 LSTM 网络循环神经网络(RNN)人们的每次思考并不都是从零开始的。比如说你在阅读这篇文章时,你基于对前面的文字的理解来理解你目前阅读到的文字,而不是每读到一个文字时,都抛弃掉前面的思考,从头开始。你的记忆是有持久性的。传统的神经网络并不能如此,这似乎是一个主要的缺点。例如,假设你在看一场电影,你想对电影里的每一个场景进行分类。传统的神经网络不能够基于前面的已分

2016-10-01 21:05:22 3252 1

转载 LSTM Networks for Sentiment Analysis

LSTM Networks for Sentiment AnalysisSummaryThis tutorial aims to provide an example of how a Recurrent Neural Network (RNN) using the Long Short Term Memory (LSTM) architecture can be implemente

2016-10-01 21:01:37 2592

转载 Understanding LSTM Networks

Understanding LSTM NetworksPosted on August 27, 2015Recurrent Neural NetworksHumans don’t start their thinking from scratch every second. As you read this essay, you understand each

2016-10-01 20:56:31 586

转载 vc维的来龙去脉

作者:火光摇曳原文链接:http://www.flickering.cn/machine_learning/2015/04/vc维的来龙去脉/目录:说说历史Hoeffding不等式Connection to Learning学习可行的两个核心条件Effective Number of HypothesesGrowth FunctionBreak Point与ShatterV

2016-09-28 18:43:03 1624 1

原创 SparkSql寻医问药问答分析第二次分析

1. 爬虫和数据导入miaofu@master:~/healthQA$ ls -l -h总用量 3.7G-rw-r--r-- 1 miaofu miaofu 80M 9月 24 13:22 2016-05-01content.txt-rw-r--r-- 1 miaofu miaofu 90M 9月 24 13:22 2016-05-02content.txt-rw-r-

2016-09-24 16:47:58 1275

转载 微博、信息披露与分析师盈余预测

原刊和作者:《财经研究》2016年第5期胡军(江西财经大学金融学院)王甄(上海财经大学金融学院)陶莹(江西财经大学金融学院)邹隽奇(新加坡理工大学)摘要信息技术和社交网络的发展改变了信息的数量、类型及其传播方式。作为金融市场上最专业的信息使用者,分析师无疑会受到这一变化的影响。本文研究了上市公司开通微博对分析师盈余预测的影响,结果发现:开通微博后,分析师

2016-09-23 21:14:39 4633

原创 SparkSQL-DataFrame学习笔记

(1)导语昨天在处理寻医问药网的记录时,遇到了处理非关系型的数据库,非关系数据以前都是mongodb来处理的,但它(a)不能分布式。所以处理的数据能力有上限(b)不能很好衔接外源程序,要是对其数据进行处理。必须下载一个第三方的包,来回对读,写其数据。非常不方便。下面我们来看看SparkSQL DataFrame这种数据库的优缺点。(2)分析材料网上关于DataFrame介绍的资源也只有

2016-09-20 10:58:03 1720

原创 基于Spark分析寻医问药网的问答数据

scala> val in = sqlContext.jsonFile("hdfs:///user/miaofu/healthcare/2016-05-01/content.txt")warning: there were 1 deprecation warning(s); re-run with -deprecation for details16/09/19 15:05:17 INFO B

2016-09-19 15:43:34 2856 1

原创 spark学习笔记-spark上做kaggle的机器学习分类任务

1. 下载数据,并写入hdfs中miaofu@master:~$ hadoop fs -ls /user/miaofu/covtype-rw-r--r-- 2 miaofu supergroup 75169317 2016-09-17 23:20 /user/miaofu/covtype2. 启动spark集群miaofu@master:~/spark-1.6.2-bin-h

2016-09-19 14:16:34 2113

原创 hadoop分布式搭建的测试

1  搭建两个节点,一个作为master,一个作为slave02. 内存4G,硬盘75Gjava7hadoop2.6.42. 初始化miaofu@miaofu-Virtual-Machine:~/hadoop-2.6.4$ hadoop namenode -formatDEPRECATED: Use of this script to execute hdfs com

2016-09-17 17:33:30 820

原创 hadoop搭建中遇到的问题汇总

1. ssh免密码登录最优方案推荐:http://www.ruanyifeng.com/blog/2011/12/ssh_remote_login.html2. datanode的问题若出现以下情况:最近在管理集群时发现明明所有数据节点都已经正常启动了,而通过命令Hadoop dfsadmin -report 显示的 Live datanodes却只有一个。同时,通过web

2016-09-16 16:25:28 716

原创 Spark学习笔记-推荐系统(协同过滤算法为用户推荐播放歌手)

这是Spark高级数据分析的第二个项目,基于用户,歌手,播放次数的简单数据记录,来为用户推荐歌手。(1)获取数据miaofu@miaofu-Virtual-Machine:~/user_artist_data$ wget http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz--2016-

2016-09-12 17:14:35 4429 4

原创 Spark学习-数据关联问题

这篇文章主要记录spark高级数据分析书中,关于记录关联问题的代码的剖析。其全部代码如下:miaofudeMacBook-Pro:code miaofu$ git clone https://github.com/sryza/aas.gitCloning into 'aas'...remote: Counting objects: 2490, done.remote: Compr

2016-09-12 13:28:06 2592

翻译 深度学习技术在股票交易上的应用研究调查

文中缩写:DBN = 深度信念网络LSTM = 长短期记忆网络MLP = 多层感知器RBM = 受限玻尔兹曼机ReLU = 修正线性单元CNN = 卷积神经网络限价委托单薄模型(Limit Order Book Modeling)Sirignano(2016)提出了一

2016-08-30 12:52:08 15529

转载 A Survey of Deep Learning Techniques Applied to Trading

A Survey of Deep Learning Techniques Applied to TradingDeep learning has been getting a lot of attention lately with breakthroughs in image classification and speech recognition. However, its

2016-08-30 12:46:06 5407

转载 Nature:Hinton、LeCun、Bengio三巨头权威科普深度学习

Hinton、LeCun、Bengio 是深度学习的最权威的科学家。文中介绍的网络是深度学习中最为成熟,经典的部分。读这篇文章可以对深度学习的核心模块有一个最快的认识。   背景借助深度学习,多处理层组成的计算模型可通过多层抽象来学习数据表征( representations)。这些方法显著推动了语音识别、视觉识别、目标检测以及许多其他领域(比如,药物发现以及基因组学)的技

2016-08-27 12:00:16 4916

转载 2010-2016年被引用次数最多的深度学习论文

我相信世上存在值得阅读的经典的深度学习论文,不论它们的应用领域是什么。比起推荐大家长长一大串论文,我更倾向于推荐大家一个某些深度学习领域的必读论文精选合集。精选合集标准2016 : +30 引用 「+50」2015 : +100 引用 「 +200」2014 : +200 引用 「+400」2013 : +300 引用 「 +600」

2016-08-27 11:35:07 3638

原创 为什么无监督的预训练可以帮助深度学习

本篇文章主要是review Dumitru Erhan∗,Yoshua Bengio,Aaron Courville,Pierre-Antoine Manzagol 在2010年发表的《why does unsupervised pre-training help deep learning?》.一 话题导入最近深度学习框架中比如:Deep Belief Networks,

2016-08-27 11:17:49 12454

mnist_mlp_spark_CC.py

mnist_mlp_spark_CC.py

2016-11-24

mnist_mlp_spark.py

mnist_mlp_spark.py

2016-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除