自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 并行算法研究现状及其相关问题的综述

并行程序的编程模型、运行环境、调试环境等都要比串行程序复杂得多。提供良好的高性能计算开发环境,一直是学术界和工业界所追求的目标。这里的开发环境既包括并行计算机体系结构,计算机网络拓扑结构等硬件环境;也包括并行程序的开发模式,网络通信协议和通信方式等软件环境。并行算法研究要以硬件,即并行计算机为依托,并行计算机性能的发挥要依靠优秀并行算法的设计的实现。所以本文,并行算法研究现状及其相关问题的综述,将

2017-03-30 16:56:46 3041

原创 R语言基础

2017-03-26 21:36:11 366

原创 数据挖掘算法

一元线性回归最小二乘法:残差平方和最小相关分析==》回归分析;

2017-03-25 21:52:48 390

原创 语音识别&人脸识别

科大讯飞Android平台创新能力介绍Face++人脸识别技术入门

2017-03-23 16:57:17 1928

原创 R语言笔记(二)

5 高级数据管理数据分析 BY 伦大锤   阅读量 1,948相对于基本数据管理,此处我们将接触到R中多种数学、统计和字符处理函数,学习如何自己编写函数,包括循环和条件执行语句,以及了解数据的整合和概述方法、重塑和重构方法。5.1 一个数据处理难题要讨论数值和字符处理函数,不妨先考虑一个数据问题。一组学生参加了数学、科学和英语考试,需要按照某种成绩衡量指

2017-03-22 19:42:25 5642

原创 数据集

一些值得一试和收藏的Tutorials 在人生各种机缘巧合的时间点,有机会看到一些非常不错的Tutorials。一开始的想法是顺着实现一遍,然后记录在博客里给大家参考学习。但是这样直接copy似乎不大厚道,而且重复整理的工作量也很大,所以干脆开个汇总帖记录一下,以后也便于自己查找和回顾。1 在Keras中实现自编码器这篇讲了如何使用开源深度学习框架Keras实现自编码器,里面包

2017-03-22 19:26:55 369

原创 R语言学习笔记(三)

11 广义线型模型数据分析 BY 伦大锤   阅读量 2,204线性模型可以通过一系列连续型和/或类别型预测变量来预测正态分布的响应情况,但在许多情况下,假设因变量为正态分布(甚至连续型变量)并不合理,例如:结果变量可能是类别型的。二值变量(是/否、通过/失败、存活/死亡)和多类别变量(优/良/可/差)都显然不是正态分布;结果变量可能是计数型的(一周交通事故的数

2017-03-22 19:25:43 8514

原创 R语言笔记(一)

1 R绘图中文问题使用R绘图时,如果绘图标题、坐标轴标题或者文本标签中含有中文,在绘图结果中将显示为方框,不同的绘图系统对应不同的解决方案。1.1 默认绘图系统如果使用默认的绘图系统,则解决方案最为简单,使用par()函数更改默认绘图参数并指定一种中文字体即可:1par(fa

2017-03-22 17:17:47 6114

原创 数据集总结

Awesome Public Datasets 在做科研的过程中总会接触到很多好的数据集,而好的数据集也是做科研的关键条件之一。Github上有一个很著名的repo,是实验室的陈夏明师兄建立和维护的。不过数据集这种东西,数量再多不如自己用过,即使没有用过,最好也是经过自己了解和整理的,这样在需要用的时候才能很快派上用场。1 图片类The Chars74K dataset多种

2017-03-22 17:16:08 1864

原创 latexit使用教程

必备条件:下载MacTex.mpkg.zip并安装。写好test.bib文件和test.tex文件先用 latex test.tex生成.aux文件再用bibtex test生成bbl文件再用两次latex test.tex得到dvi文件最后用dvipdfm test.dvi得到pdf文件可用TexShop+Excalibur检查语法,用BibD

2017-03-21 21:25:38 18359 1

原创 keras实例

一些值得一试和收藏的Tutorials 在人生各种机缘巧合的时间点,有机会看到一些非常不错的Tutorials。一开始的想法是顺着实现一遍,然后记录在博客里给大家参考学习。但是这样直接copy似乎不大厚道,而且重复整理的工作量也很大,所以干脆开个汇总帖记录一下,以后也便于自己查找和回顾。1 在Keras中实现自编码器这篇讲了如何使用开源深度学习框架Keras实现自编码器,里面包

2017-03-21 21:10:41 510

原创 常用工具

常用工具的10mins集合慢慢整理一些常用工具的10 Minutes入门教程,避免总是要找。1 PandasPandas是一款用于数据清洗和预处理的python包,功能强大、好用。http://pandas.pydata.org/pandas-docs/stable/10min.html2 正则表达式正则表达式的作用就不用多说了,脚本之家提供了一个30分钟的入门教程

2017-03-21 17:25:56 351

原创 一些不错的博客

一些不错的博客看到一些干货满满的博客,内容很多,值得一看,在这里记录一下。http://blog.topspeedsnail.com/,很多深度学习和TensorFlow的实战项目;

2017-03-21 17:20:28 217

原创 中文分词一些思路的总结

中文分词一些思路的总结 中文分词是中文自然语言处理的第一步,也是最为核心的基础,分词的好坏和准确率直接影响到后续进行的其他处理和分析。常用的中文分词工具包括jieba分词、哈工大分词、Stanford分词等,但是除了会使用这些工具外,掌握相关的模型和思想更为重要。1 Mmseg每次从一个完整的句子里,按照从左向右的顺序,识别出多种不同的3个词组合,然后根据下面的4条消歧规则,确定最佳的

2017-03-21 16:50:45 1572

原创 当今世界最NB的25位大数据科学家

当今世界最NB的25位大数据科学家引言  在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界,他(她)们都是一座座山头式的人物。他(她)们是我们这些从事大数据

2017-03-20 16:18:44 1096

原创 Hadoop用户行为分析项目

2017-03-13 14:54:10 2135

原创 面试系列---经典算法部分

单链表反转LinkList reverse_link(LinkList list){ if(NULL == list || NULL == list->next) return list; LinkList temp,prev,next; prev=list; temp=list->next; prev->next=NUll; while(temp!=

2017-03-10 21:03:11 265

原创 排序算法

概述排序有内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。我们这里说说八大排序就是内部排序。        当n较大,则应采用时间复杂度为O(nlog2n)的排序方法:快速排序、堆排序或归并排序序。   快速排序:是目前基于比较的内部排序中被认为是最好的方法,当待排序的关键字

2017-03-10 20:51:24 246

原创 caffe在prototxt文件加参数

solver算是caffe的核心的核心,它协调着整个模型的运作。caffe程序运行必带的一个参数就是solver配置文件。运行代码一般为[plain] view plain copy  ./bulid/tools/caffe train -solver  *_solver.prototxt  在Deep Learning中

2017-03-08 11:33:07 967

原创 Hadoop性能调优与运维

Hadoop集群的搭建流式访问数据一次写入,多次读取默认数据块是64M;元数据:镜像文件+日志文件;用户数据;主从节点的通信是用TCP协议进行通信;作业;任务;键值对;tasktracker和jobtracker之间的通信与任务分配是通过心跳机制来完成的;

2017-03-07 21:53:16 433

原创 牛客网系列---Python

判断语句if ...: print()elif ...: print()文件头部注释:#coding=utf-8循环for i in range(0,100): print("Item {0},{1}".format(i,"Hello Python"))函数def sayHello(): print("Hello World")def max(a,b): if a

2017-03-07 20:38:52 3331

原创 牛客网系列--java

Java分为3个体系:Java程序的运行:Java开发:

2017-03-07 15:21:21 340

原创 数据结构--线性表

逻辑结构集合结构、线性结构、树形结构、图形结构;物理结构顺序存储结构、链式存储结构;算法的特性输入:算法具有0个或多个输入,对绝大多数算法而言输入参数都是必要的;输出:算法至少有1个或多个输出,算法一定有输出;有穷性:算法在执行有限的步骤之后,自动结束而不会出现无限循环,并且每一个步骤在可接受的时间内完成;确定性:算法的每一个步骤都有明确的含义,不会出现二义性;算法

2017-03-05 17:28:49 286

原创 网络编程系列之入门篇(Java)

网络编程基础网络编程基础学习网络编程的原因网络通讯的三要素IP地址端口协议Java中Socket编程UDP下Socket通信UDP协议中Socket编程步骤总结UDP协议注意事项出现数据包丢失的情况TCP下Socket通信TCP协议中Socket编程步骤总结TCP协议编程示例山寨Tomcat服务器

2017-03-03 07:58:21 258

原创 云计算系列之OpenStack入门指南

https://github.com/nofdevwww.OpenStack.org最热门的一套私有云的开源软件。硬件:运行环境:testing环境production环境openssl rand _hex 10 随机生成一个password  token

2017-03-03 07:56:58 225

原创 Hadoop大数据系列---Hadoop安装与环境配置

1.数据量进制;存储:分割、运算;

2017-03-03 07:52:17 289

原创 Hadoop大数据系列---系列讲座

什么是机器智能世界新技术的三个趋势:云计算+移动互联网+大数据(正在进行时)机器智能(现在时)IT+生物医疗(未来时)

2017-03-03 07:51:31 395

原创 Spark+Hadoop+Mahout大数据系列

大数据概述Hadoop大数据分析生态环境;数据分析与大数据分析:(1)描述性分析:平均值、标准差;同比、环比发展速度;分位数、众数;(2)数理统计分析:抽样估计;假设检验;方差分析;(3)数据挖掘方法:聚类分析; 分类分析(决策树、神经网络、支持向量机、随机森林);关联规则;协同过滤;(4)大数据分析:Hadoop(HDFS、mapreduce、hbase、mahout【聚

2017-03-03 07:51:12 2466

原创 数据科学工程师面试宝典系列---数据挖掘算法原理

1.课程概述1.1定义技术定义:数据挖掘(data mining)就是从大量变的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业定义:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。1.2研究对象数据—关系型数据库,事务

2017-03-02 18:24:31 830

原创 数据科学工程师面试宝典系列---旅游评论数据中的自然语言处理

NLP的工作训练中文分词模型;比如jieba、ncej(java分词);训练中文词性分析模型;名词、形容词、副词、否定词;分词是基础;评论数据的印象提取(情感分析);关键词分析和聚合;基于word2vec的推荐引擎和简易分类器;谷歌的工具,把文本生成词向量;All in Python;中文分词自己训练模型的原因:容易改进,根据效果修正训练集旅游数据的独特

2017-03-02 17:17:01 575

原创 软件测试系列之入门篇

1.软件测试的定义软件=程序+数据+文档系统软件应用软件测试=质检种类:自动化测试、性能测试、白盒测试2.软件测试的目的为了发现错误,通过运行程序来达到这个目的。错误:代码及逻辑错误、用户需求、客户体验、产品质量3.软件测试的阶段介绍计划=》设计=》执行=》评估=》验收

2017-03-02 10:58:19 292

原创 数据科学工程师面试宝典系列之二---Python机器学习kaggle案例:泰坦尼克号船员获救预测

1.Python机器学习kaggle案例Numpy-python科学计算库;Pandas-python数据分析处理库;Scikit-learn-python机器学习库;2.泰坦尼克号数据介绍乘客编号、是否幸存、等级、姓名、性别、年龄、兄弟姐妹个数、带老人孩子个数、船票、船票价格、上船地点;3.数据预处理[python] view plai

2017-03-02 10:57:29 699

原创 数据科学工程师面试宝典系列之一--Python爬虫实战

1.数据抽取、转换、储存(Data ETL--extract/transfer/loading):原始资料【raw data】==》ETL脚本【ETL Script】==》结构化数据【Tidy Data】2.网络爬虫:将非结构化的网页数据转成结构化信息3.网络爬虫架构:                                                 

2017-03-02 10:56:58 1114

原创 C++工程师面试宝典系列之C/C++经典面试题

1.const 的全面理解:(1)说说你对const 的理解(主要C语言范围内)const是一个C中类型修饰符;常见的类型修饰符有:short,long,unsigned,signed,static,auto,extern,register,volatile;定义一个变量:类型描述符  变量名;类型描述符包括:类型的修饰符以及数据类型 int  char  

2017-03-02 10:51:10 1278

原创 Hadoop集群的搭建

搭建6个节点的Hadoop集群节点在实验室192.168.100.20:8006,用户名:root,密码:**,申请了6个节点,分别是:192.168.101.44 #主节点192.168.101.45 #节点1192.168.101.46 #节点2192.168.101.47 #节点3192.168.101.48 #节点4192.168.1

2017-03-02 10:48:48 913

原创 数据科学工程师面试宝典系列---R语言入门

基础入门摘要:讲解R的操作知识,了解R的特点、资源获取方式,并掌握基本的程序编写什么是RR语言是一种业界盛行的数据分析编程语言理念就是快速、准确地把想法转化成软件R语言脱胎于1980年左右诞生的S语言在1998年被美国计算机协会(ACM)授予了“软件系统奖”1997年R语言正式成为GNU项目2010年获得第一届“统计计算及图形奖”(美国统计协会)R语言的特点

2017-03-01 14:52:41 2463

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除