hehuanlin123-CSDN博客

原创腾讯面试（二）

（一）二分法查找二分法查找其实就是折半查找，一种效率较高的查找方法。针对有需数组来查找的。主要思想是：（设查找的数组期间为array[low, high]）（1）确定该期间的中间位置K（2）将查找的值T与array[k]比较。若相等，查找成功返回此位置；否则确定新的查找区域，继续二分查找。区域确定如下：a.array[k]>T 由数组的有序性可知array[k,k+1,……,h

2017-04-11 23:02:19 609

原创腾讯面试题

1. STL中的内存管理机制STL的每一个容器都已经指定了缺省的空间配置器为alloc。下面来分析一下这个缺省的空间配置器。alloc空间分配的策略：考虑到小型区块可能造成的内存的碎片的问题，SGI设计了双层的配置器，第一层的配置器直接使用的是malloc()和free(),第二层配置器则视情况采用不同的策略。当配置区块超过128字节(Bytes)的时候，视为足够大，调用第一级

2017-04-11 21:23:42 1536

原创 Android并行开发

其实去年就已经把Android上OpenCL的demo做出来了，但是由于种种原因一直没有开源–嗯现在就不吝啬了~奉献给大家~后面在Android上还实现了很多种并行化的算法，比如SHA-1、HDR、K-means、NL-means、SRAD等等，会在近期整理好之后开源的。原文发表在了异构开发技术社区整理成教程是队友做的，十分感谢~原博文地址队友的博客项目gith

2017-04-09 22:56:23 2256

原创数据结构面试100题

引言无私分享造就开源的辉煌。今是二零一一年十月十三日，明日14日即是本人刚好开博一周年。在一周年之际，特此分享出微软面试全部100题答案的完整版，以作为对本博客所有读者的回馈。一年之前的10月14日，一个名叫July （头像为手冢国光）的人在一个叫csdn的论坛上开帖分享微软等公司数据结构+算法面试100题，自此，与上千网友一起做，一起思考

2017-04-08 22:22:32 27431 3

原创图灵机器人APP

1.平台介绍以及数据获取图灵机器人API及接口，APIkey；API地址，请求方式为get方式；6个参数：key、info、userid、loc、lon、lot；返回json格式数据；2.搭建Android环境eclipse ADT；模拟器与eclipse环境是否连接上；3.异步请求数据创建工程，更改包名；只在一个包下写Java代码；httpdata.java文件实现异步通

2017-04-07 22:49:07 2279 1

原创搭建SQL的web环境

1.PHP网页2.MySQL的使用方法命令行：直接在终端或cmd中敲命令Web工具：phpmyadmin：简单、轻量、好用新建数据库新建数据表、定义字段（Int、Float、Varchar、Text）本地软件：Navicat：功能更强大数据的导入、导出使用代码：mysql-python：读写更新数据我的习惯：使用phpmyadmin新

2017-04-07 17:39:39 632

原创星战知识图谱可视化

1.获取电影数据http://swapi.co/apifor循环实现爬取每一部电影API的数据；使用headers伪装浏览器；写文件与关闭文件open与fw.write；利用url和headers来进行爬取； urllib2.request，urllib2.urlopen，response.read方法;2.获取详细数据strip去掉空格；films和data都用列

2017-04-07 08:20:45 4699

原创豆瓣电影数据可视化项目

作为星战迷，看了N遍星球大战，你能说出《星球大战》系列的7部电影中出现了多少个角色、多少个种族、多少艘飞船、多少架战车吗？不要掰着手指头数了，看完这篇你能获知想要的一切~知识图谱全景展现星球大战没有看过星战的同学，一张图就可以告诉你，这7部电影里，共出现了87名角色、21颗星球、37艘飞船、39架战车、37个种族，还能告诉你，这228个实体之间的1112种关系。这次的数

2017-04-06 19:47:39 5982

原创 Android 面试指导

1.Java基础2.Android基础3.Android UI 控件与布局4.传感器与定位系统5.常用数据格式与网络编程

2017-04-05 17:19:59 453

并行程序的编程模型、运行环境、调试环境等都要比串行程序复杂得多。提供良好的高性能计算开发环境，一直是学术界和工业界所追求的目标。这里的开发环境既包括并行计算机体系结构，计算机网络拓扑结构等硬件环境；也包括并行程序的开发模式，网络通信协议和通信方式等软件环境。并行算法研究要以硬件，即并行计算机为依托，并行计算机性能的发挥要依靠优秀并行算法的设计的实现。所以本文，并行算法研究现状及其相关问题的综述，将

2017-03-30 16:56:46 3241

原创 R语言基础

2017-03-26 21:36:11 416

原创数据挖掘算法

一元线性回归最小二乘法：残差平方和最小相关分析==》回归分析；

2017-03-25 21:52:48 442

原创语音识别&人脸识别

科大讯飞Android平台创新能力介绍Face++人脸识别技术入门

2017-03-23 16:57:17 2045

原创 R语言笔记（二）

5 高级数据管理数据分析 BY 伦大锤阅读量 1,948相对于基本数据管理，此处我们将接触到R中多种数学、统计和字符处理函数，学习如何自己编写函数，包括循环和条件执行语句，以及了解数据的整合和概述方法、重塑和重构方法。5.1 一个数据处理难题要讨论数值和字符处理函数，不妨先考虑一个数据问题。一组学生参加了数学、科学和英语考试，需要按照某种成绩衡量指

2017-03-22 19:42:25 5869

原创数据集

一些值得一试和收藏的Tutorials 在人生各种机缘巧合的时间点，有机会看到一些非常不错的Tutorials。一开始的想法是顺着实现一遍，然后记录在博客里给大家参考学习。但是这样直接copy似乎不大厚道，而且重复整理的工作量也很大，所以干脆开个汇总帖记录一下，以后也便于自己查找和回顾。1 在Keras中实现自编码器这篇讲了如何使用开源深度学习框架Keras实现自编码器，里面包

2017-03-22 19:26:55 429

原创 R语言学习笔记（三）

11 广义线型模型数据分析 BY 伦大锤阅读量 2,204线性模型可以通过一系列连续型和/或类别型预测变量来预测正态分布的响应情况，但在许多情况下，假设因变量为正态分布（甚至连续型变量）并不合理，例如：结果变量可能是类别型的。二值变量（是/否、通过/失败、存活/死亡）和多类别变量（优/良/可/差）都显然不是正态分布；结果变量可能是计数型的（一周交通事故的数

2017-03-22 19:25:43 8709

原创 R语言笔记（一）

1 R绘图中文问题使用R绘图时，如果绘图标题、坐标轴标题或者文本标签中含有中文，在绘图结果中将显示为方框，不同的绘图系统对应不同的解决方案。1.1 默认绘图系统如果使用默认的绘图系统，则解决方案最为简单，使用par()函数更改默认绘图参数并指定一种中文字体即可：1par(fa

2017-03-22 17:17:47 6310

原创数据集总结

Awesome Public Datasets 在做科研的过程中总会接触到很多好的数据集，而好的数据集也是做科研的关键条件之一。Github上有一个很著名的repo，是实验室的陈夏明师兄建立和维护的。不过数据集这种东西，数量再多不如自己用过，即使没有用过，最好也是经过自己了解和整理的，这样在需要用的时候才能很快派上用场。1 图片类The Chars74K dataset多种

2017-03-22 17:16:08 2058

原创 latexit使用教程

必备条件：下载MacTex.mpkg.zip并安装。写好test.bib文件和test.tex文件先用 latex test.tex生成.aux文件再用bibtex test生成bbl文件再用两次latex test.tex得到dvi文件最后用dvipdfm test.dvi得到pdf文件可用TexShop＋Excalibur检查语法，用BibD

2017-03-21 21:25:38 18671 1

原创 keras实例

一些值得一试和收藏的Tutorials 在人生各种机缘巧合的时间点，有机会看到一些非常不错的Tutorials。一开始的想法是顺着实现一遍，然后记录在博客里给大家参考学习。但是这样直接copy似乎不大厚道，而且重复整理的工作量也很大，所以干脆开个汇总帖记录一下，以后也便于自己查找和回顾。1 在Keras中实现自编码器这篇讲了如何使用开源深度学习框架Keras实现自编码器，里面包

2017-03-21 21:10:41 555

原创常用工具

常用工具的10mins集合慢慢整理一些常用工具的10 Minutes入门教程，避免总是要找。1 PandasPandas是一款用于数据清洗和预处理的python包，功能强大、好用。http://pandas.pydata.org/pandas-docs/stable/10min.html2 正则表达式正则表达式的作用就不用多说了，脚本之家提供了一个30分钟的入门教程

2017-03-21 17:25:56 460

原创一些不错的博客

一些不错的博客看到一些干货满满的博客，内容很多，值得一看，在这里记录一下。http://blog.topspeedsnail.com/，很多深度学习和TensorFlow的实战项目；

2017-03-21 17:20:28 269

原创中文分词一些思路的总结

中文分词一些思路的总结中文分词是中文自然语言处理的第一步，也是最为核心的基础，分词的好坏和准确率直接影响到后续进行的其他处理和分析。常用的中文分词工具包括jieba分词、哈工大分词、Stanford分词等，但是除了会使用这些工具外，掌握相关的模型和思想更为重要。1 Mmseg每次从一个完整的句子里，按照从左向右的顺序，识别出多种不同的3个词组合，然后根据下面的4条消歧规则，确定最佳的

2017-03-21 16:50:45 1666

原创当今世界最NB的25位大数据科学家

当今世界最NB的25位大数据科学家引言在大数据技术飞速发展的今天，谁才是我们大数据科研与工业界中最有威望的科学家呢？下面我们来进行梳理，共罗列了25位当今世界，无论是在学术与工业界都产生巨大影响的数据科学家（Data Scientists）。他（她）们推动了整个领域的发展，毫无疑问，无论是在学术界还是还工业界，他（她）们都是一座座山头式的人物。他（她）们是我们这些从事大数据

2017-03-20 16:18:44 1302

原创 Hadoop用户行为分析项目

2017-03-13 14:54:10 2209

原创面试系列---经典算法部分

单链表反转LinkList reverse_link(LinkList list){ if(NULL == list || NULL == list->next) return list; LinkList temp,prev,next; prev=list; temp=list->next; prev->next=NUll; while(temp！=

2017-03-10 21:03:11 310

原创排序算法

概述排序有内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。我们这里说说八大排序就是内部排序。当n较大，则应采用时间复杂度为O(nlog2n)的排序方法：快速排序、堆排序或归并排序序。快速排序：是目前基于比较的内部排序中被认为是最好的方法，当待排序的关键字

2017-03-10 20:51:24 285

原创 caffe在prototxt文件加参数

solver算是caffe的核心的核心，它协调着整个模型的运作。caffe程序运行必带的一个参数就是solver配置文件。运行代码一般为[plain] view plain copy ./bulid/tools/caffe train -solver *_solver.prototxt 在Deep Learning中

2017-03-08 11:33:07 1005

原创 Hadoop性能调优与运维

Hadoop集群的搭建流式访问数据一次写入，多次读取默认数据块是64M;元数据：镜像文件+日志文件；用户数据；主从节点的通信是用TCP协议进行通信；作业；任务；键值对；tasktracker和jobtracker之间的通信与任务分配是通过心跳机制来完成的；

2017-03-07 21:53:16 496

原创牛客网系列---Python

判断语句if ...: print()elif ...: print()文件头部注释：#coding=utf-8循环for i in range(0,100): print("Item {0},{1}".format(i,"Hello Python"))函数def sayHello(): print("Hello World")def max(a,b): if a

2017-03-07 20:38:52 3472

原创牛客网系列--java

Java分为3个体系：Java程序的运行：Java开发：

2017-03-07 15:21:21 399

原创数据结构--线性表

逻辑结构集合结构、线性结构、树形结构、图形结构；物理结构顺序存储结构、链式存储结构；算法的特性输入：算法具有0个或多个输入，对绝大多数算法而言输入参数都是必要的；输出：算法至少有1个或多个输出，算法一定有输出；有穷性：算法在执行有限的步骤之后，自动结束而不会出现无限循环，并且每一个步骤在可接受的时间内完成；确定性：算法的每一个步骤都有明确的含义，不会出现二义性；算法

2017-03-05 17:28:49 332

原创网络编程系列之入门篇（Java）

网络编程基础网络编程基础学习网络编程的原因网络通讯的三要素IP地址端口协议Java中Socket编程UDP下Socket通信UDP协议中Socket编程步骤总结UDP协议注意事项出现数据包丢失的情况TCP下Socket通信TCP协议中Socket编程步骤总结TCP协议编程示例山寨Tomcat服务器

2017-03-03 07:58:21 305

原创云计算系列之OpenStack入门指南

https://github.com/nofdevwww.OpenStack.org最热门的一套私有云的开源软件。硬件：运行环境：testing环境production环境openssl rand _hex 10 随机生成一个password token

2017-03-03 07:56:58 260

原创 Hadoop大数据系列---Hadoop安装与环境配置

1.数据量进制；存储：分割、运算；

2017-03-03 07:52:17 338

原创 Hadoop大数据系列---系列讲座

什么是机器智能世界新技术的三个趋势：云计算+移动互联网+大数据（正在进行时）机器智能（现在时）IT+生物医疗（未来时）

2017-03-03 07:51:31 459

原创 Spark+Hadoop+Mahout大数据系列

大数据概述Hadoop大数据分析生态环境；数据分析与大数据分析：（1）描述性分析：平均值、标准差；同比、环比发展速度；分位数、众数；（2）数理统计分析：抽样估计；假设检验；方差分析；（3）数据挖掘方法：聚类分析；分类分析（决策树、神经网络、支持向量机、随机森林）；关联规则；协同过滤；（4）大数据分析：Hadoop（HDFS、mapreduce、hbase、mahout【聚

2017-03-03 07:51:12 2546

原创数据科学工程师面试宝典系列---数据挖掘算法原理

1.课程概述1.1定义技术定义：数据挖掘（data mining）就是从大量变的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。商业定义：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。1.2研究对象数据—关系型数据库，事务

2017-03-02 18:24:31 915

原创数据科学工程师面试宝典系列---旅游评论数据中的自然语言处理

NLP的工作训练中文分词模型；比如jieba、ncej(java分词)；训练中文词性分析模型；名词、形容词、副词、否定词；分词是基础；评论数据的印象提取（情感分析）；关键词分析和聚合；基于word2vec的推荐引擎和简易分类器；谷歌的工具，把文本生成词向量；All in Python；中文分词自己训练模型的原因：容易改进，根据效果修正训练集旅游数据的独特

2017-03-02 17:17:01 636

原创软件测试系列之入门篇

1.软件测试的定义软件=程序+数据+文档系统软件应用软件测试=质检种类：自动化测试、性能测试、白盒测试2.软件测试的目的为了发现错误，通过运行程序来达到这个目的。错误：代码及逻辑错误、用户需求、客户体验、产品质量3.软件测试的阶段介绍计划=》设计=》执行=》评估=》验收

2017-03-02 10:58:19 338

空空如也

空空如也