2017年03月_hehuanlin123

原创并行算法研究现状及其相关问题的综述

并行程序的编程模型、运行环境、调试环境等都要比串行程序复杂得多。提供良好的高性能计算开发环境，一直是学术界和工业界所追求的目标。这里的开发环境既包括并行计算机体系结构，计算机网络拓扑结构等硬件环境；也包括并行程序的开发模式，网络通信协议和通信方式等软件环境。并行算法研究要以硬件，即并行计算机为依托，并行计算机性能的发挥要依靠优秀并行算法的设计的实现。所以本文，并行算法研究现状及其相关问题的综述，将

2017-03-30 16:56:46 3041

原创 R语言基础

2017-03-26 21:36:11 366

原创数据挖掘算法

一元线性回归最小二乘法：残差平方和最小相关分析==》回归分析；

2017-03-25 21:52:48 390

原创语音识别&人脸识别

科大讯飞Android平台创新能力介绍Face++人脸识别技术入门

2017-03-23 16:57:17 1928

原创 R语言笔记（二）

5 高级数据管理数据分析 BY 伦大锤阅读量 1,948相对于基本数据管理，此处我们将接触到R中多种数学、统计和字符处理函数，学习如何自己编写函数，包括循环和条件执行语句，以及了解数据的整合和概述方法、重塑和重构方法。5.1 一个数据处理难题要讨论数值和字符处理函数，不妨先考虑一个数据问题。一组学生参加了数学、科学和英语考试，需要按照某种成绩衡量指

2017-03-22 19:42:25 5642

原创数据集

一些值得一试和收藏的Tutorials 在人生各种机缘巧合的时间点，有机会看到一些非常不错的Tutorials。一开始的想法是顺着实现一遍，然后记录在博客里给大家参考学习。但是这样直接copy似乎不大厚道，而且重复整理的工作量也很大，所以干脆开个汇总帖记录一下，以后也便于自己查找和回顾。1 在Keras中实现自编码器这篇讲了如何使用开源深度学习框架Keras实现自编码器，里面包

2017-03-22 19:26:55 369

原创 R语言学习笔记（三）

11 广义线型模型数据分析 BY 伦大锤阅读量 2,204线性模型可以通过一系列连续型和/或类别型预测变量来预测正态分布的响应情况，但在许多情况下，假设因变量为正态分布（甚至连续型变量）并不合理，例如：结果变量可能是类别型的。二值变量（是/否、通过/失败、存活/死亡）和多类别变量（优/良/可/差）都显然不是正态分布；结果变量可能是计数型的（一周交通事故的数

2017-03-22 19:25:43 8514

原创 R语言笔记（一）

1 R绘图中文问题使用R绘图时，如果绘图标题、坐标轴标题或者文本标签中含有中文，在绘图结果中将显示为方框，不同的绘图系统对应不同的解决方案。1.1 默认绘图系统如果使用默认的绘图系统，则解决方案最为简单，使用par()函数更改默认绘图参数并指定一种中文字体即可：1par(fa

2017-03-22 17:17:47 6114

原创数据集总结

Awesome Public Datasets 在做科研的过程中总会接触到很多好的数据集，而好的数据集也是做科研的关键条件之一。Github上有一个很著名的repo，是实验室的陈夏明师兄建立和维护的。不过数据集这种东西，数量再多不如自己用过，即使没有用过，最好也是经过自己了解和整理的，这样在需要用的时候才能很快派上用场。1 图片类The Chars74K dataset多种

2017-03-22 17:16:08 1864

原创 latexit使用教程

必备条件：下载MacTex.mpkg.zip并安装。写好test.bib文件和test.tex文件先用 latex test.tex生成.aux文件再用bibtex test生成bbl文件再用两次latex test.tex得到dvi文件最后用dvipdfm test.dvi得到pdf文件可用TexShop＋Excalibur检查语法，用BibD

2017-03-21 21:25:38 18359 1

原创 keras实例

一些值得一试和收藏的Tutorials 在人生各种机缘巧合的时间点，有机会看到一些非常不错的Tutorials。一开始的想法是顺着实现一遍，然后记录在博客里给大家参考学习。但是这样直接copy似乎不大厚道，而且重复整理的工作量也很大，所以干脆开个汇总帖记录一下，以后也便于自己查找和回顾。1 在Keras中实现自编码器这篇讲了如何使用开源深度学习框架Keras实现自编码器，里面包

2017-03-21 21:10:41 510

原创常用工具

常用工具的10mins集合慢慢整理一些常用工具的10 Minutes入门教程，避免总是要找。1 PandasPandas是一款用于数据清洗和预处理的python包，功能强大、好用。http://pandas.pydata.org/pandas-docs/stable/10min.html2 正则表达式正则表达式的作用就不用多说了，脚本之家提供了一个30分钟的入门教程

2017-03-21 17:25:56 351

原创一些不错的博客

一些不错的博客看到一些干货满满的博客，内容很多，值得一看，在这里记录一下。http://blog.topspeedsnail.com/，很多深度学习和TensorFlow的实战项目；

2017-03-21 17:20:28 217

原创中文分词一些思路的总结

中文分词一些思路的总结中文分词是中文自然语言处理的第一步，也是最为核心的基础，分词的好坏和准确率直接影响到后续进行的其他处理和分析。常用的中文分词工具包括jieba分词、哈工大分词、Stanford分词等，但是除了会使用这些工具外，掌握相关的模型和思想更为重要。1 Mmseg每次从一个完整的句子里，按照从左向右的顺序，识别出多种不同的3个词组合，然后根据下面的4条消歧规则，确定最佳的

2017-03-21 16:50:45 1572

原创当今世界最NB的25位大数据科学家

当今世界最NB的25位大数据科学家引言在大数据技术飞速发展的今天，谁才是我们大数据科研与工业界中最有威望的科学家呢？下面我们来进行梳理，共罗列了25位当今世界，无论是在学术与工业界都产生巨大影响的数据科学家（Data Scientists）。他（她）们推动了整个领域的发展，毫无疑问，无论是在学术界还是还工业界，他（她）们都是一座座山头式的人物。他（她）们是我们这些从事大数据

2017-03-20 16:18:44 1096

原创 Hadoop用户行为分析项目

2017-03-13 14:54:10 2135

原创面试系列---经典算法部分

单链表反转LinkList reverse_link(LinkList list){ if(NULL == list || NULL == list->next) return list; LinkList temp,prev,next; prev=list; temp=list->next; prev->next=NUll; while(temp！=

2017-03-10 21:03:11 265

原创排序算法

概述排序有内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。我们这里说说八大排序就是内部排序。当n较大，则应采用时间复杂度为O(nlog2n)的排序方法：快速排序、堆排序或归并排序序。快速排序：是目前基于比较的内部排序中被认为是最好的方法，当待排序的关键字

2017-03-10 20:51:24 246

原创 caffe在prototxt文件加参数

solver算是caffe的核心的核心，它协调着整个模型的运作。caffe程序运行必带的一个参数就是solver配置文件。运行代码一般为[plain] view plain copy ./bulid/tools/caffe train -solver *_solver.prototxt 在Deep Learning中

2017-03-08 11:33:07 967

原创 Hadoop性能调优与运维

Hadoop集群的搭建流式访问数据一次写入，多次读取默认数据块是64M;元数据：镜像文件+日志文件；用户数据；主从节点的通信是用TCP协议进行通信；作业；任务；键值对；tasktracker和jobtracker之间的通信与任务分配是通过心跳机制来完成的；

2017-03-07 21:53:16 433

原创牛客网系列---Python

判断语句if ...: print()elif ...: print()文件头部注释：#coding=utf-8循环for i in range(0,100): print("Item {0},{1}".format(i,"Hello Python"))函数def sayHello(): print("Hello World")def max(a,b): if a

2017-03-07 20:38:52 3331

原创牛客网系列--java

Java分为3个体系：Java程序的运行：Java开发：

2017-03-07 15:21:21 340

原创数据结构--线性表

逻辑结构集合结构、线性结构、树形结构、图形结构；物理结构顺序存储结构、链式存储结构；算法的特性输入：算法具有0个或多个输入，对绝大多数算法而言输入参数都是必要的；输出：算法至少有1个或多个输出，算法一定有输出；有穷性：算法在执行有限的步骤之后，自动结束而不会出现无限循环，并且每一个步骤在可接受的时间内完成；确定性：算法的每一个步骤都有明确的含义，不会出现二义性；算法

2017-03-05 17:28:49 286

原创网络编程系列之入门篇（Java）

网络编程基础网络编程基础学习网络编程的原因网络通讯的三要素IP地址端口协议Java中Socket编程UDP下Socket通信UDP协议中Socket编程步骤总结UDP协议注意事项出现数据包丢失的情况TCP下Socket通信TCP协议中Socket编程步骤总结TCP协议编程示例山寨Tomcat服务器

2017-03-03 07:58:21 258

原创云计算系列之OpenStack入门指南

https://github.com/nofdevwww.OpenStack.org最热门的一套私有云的开源软件。硬件：运行环境：testing环境production环境openssl rand _hex 10 随机生成一个password token

2017-03-03 07:56:58 225

原创 Hadoop大数据系列---Hadoop安装与环境配置

1.数据量进制；存储：分割、运算；

2017-03-03 07:52:17 289

原创 Hadoop大数据系列---系列讲座

什么是机器智能世界新技术的三个趋势：云计算+移动互联网+大数据（正在进行时）机器智能（现在时）IT+生物医疗（未来时）

2017-03-03 07:51:31 395

原创 Spark+Hadoop+Mahout大数据系列

大数据概述Hadoop大数据分析生态环境；数据分析与大数据分析：（1）描述性分析：平均值、标准差；同比、环比发展速度；分位数、众数；（2）数理统计分析：抽样估计；假设检验；方差分析；（3）数据挖掘方法：聚类分析；分类分析（决策树、神经网络、支持向量机、随机森林）；关联规则；协同过滤；（4）大数据分析：Hadoop（HDFS、mapreduce、hbase、mahout【聚

2017-03-03 07:51:12 2466

原创数据科学工程师面试宝典系列---数据挖掘算法原理

1.课程概述1.1定义技术定义：数据挖掘（data mining）就是从大量变的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业定义：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。1.2研究对象数据—关系型数据库，事务

2017-03-02 18:24:31 830

原创数据科学工程师面试宝典系列---旅游评论数据中的自然语言处理

NLP的工作训练中文分词模型；比如jieba、ncej(java分词)；训练中文词性分析模型；名词、形容词、副词、否定词；分词是基础；评论数据的印象提取（情感分析）；关键词分析和聚合；基于word2vec的推荐引擎和简易分类器；谷歌的工具，把文本生成词向量；All in Python；中文分词自己训练模型的原因：容易改进，根据效果修正训练集旅游数据的独特

2017-03-02 17:17:01 575

原创软件测试系列之入门篇

1.软件测试的定义软件=程序+数据+文档系统软件应用软件测试=质检种类：自动化测试、性能测试、白盒测试2.软件测试的目的为了发现错误，通过运行程序来达到这个目的。错误：代码及逻辑错误、用户需求、客户体验、产品质量3.软件测试的阶段介绍计划=》设计=》执行=》评估=》验收

2017-03-02 10:58:19 292

原创数据科学工程师面试宝典系列之二---Python机器学习kaggle案例：泰坦尼克号船员获救预测

1.Python机器学习kaggle案例Numpy-python科学计算库；Pandas-python数据分析处理库；Scikit-learn-python机器学习库；2.泰坦尼克号数据介绍乘客编号、是否幸存、等级、姓名、性别、年龄、兄弟姐妹个数、带老人孩子个数、船票、船票价格、上船地点；3.数据预处理[python] view plai

2017-03-02 10:57:29 699

原创数据科学工程师面试宝典系列之一--Python爬虫实战

1.数据抽取、转换、储存（Data ETL--extract/transfer/loading）：原始资料【raw data】==》ETL脚本【ETL Script】==》结构化数据【Tidy Data】2.网络爬虫：将非结构化的网页数据转成结构化信息3.网络爬虫架构：

2017-03-02 10:56:58 1114

原创 C++工程师面试宝典系列之C/C++经典面试题

1.const 的全面理解：（1）说说你对const 的理解（主要C语言范围内）const是一个C中类型修饰符；常见的类型修饰符有：short，long，unsigned，signed，static，auto，extern，register，volatile；定义一个变量：类型描述符变量名；类型描述符包括：类型的修饰符以及数据类型 int char

2017-03-02 10:51:10 1278

原创 Hadoop集群的搭建

搭建6个节点的Hadoop集群节点在实验室192.168.100.20:8006，用户名：root，密码：**，申请了6个节点，分别是：192.168.101.44 #主节点192.168.101.45 #节点1192.168.101.46 #节点2192.168.101.47 #节点3192.168.101.48 #节点4192.168.1

2017-03-02 10:48:48 913

原创数据科学工程师面试宝典系列---R语言入门

基础入门摘要：讲解R的操作知识，了解R的特点、资源获取方式，并掌握基本的程序编写什么是RR语言是一种业界盛行的数据分析编程语言理念就是快速、准确地把想法转化成软件R语言脱胎于1980年左右诞生的S语言在1998年被美国计算机协会（ACM）授予了“软件系统奖”1997年R语言正式成为GNU项目2010年获得第一届“统计计算及图形奖”（美国统计协会）R语言的特点

2017-03-01 14:52:41 2463

hehuanlin123的博客