wtq1993-CSDN博客

原创 httrack使用

(1)httrack "http://www.bnu.edu.cn/" -O /media/wtq/000B8D9100080809/develop/workspace/httrack/bnu_test -n -* +*.pdf +www.bnu.edu.cn/somedynamicscript.php -mime:*/* +mime:application/pdf -v

2017-01-25 13:48:44 4755

原创 ubuntu14.04 安装 paramkio

paramkio是个python库实现了ssh协议，利用这个库可以实现ssh远程链接并执行远程命令。安装中可以使用 pip install paramiko，安装后使用时会提示importerror no module named cryptography.hazmat.backends ，此时使用 pip install cryptography来安装这个依赖，安装此依赖时还会提示No pa

2017-01-24 14:47:17 754

原创 CDH 安装中遇到的问题

1. 界面上显示检测不到JDK或者命令行中执行hadoop命令找不到JAVA_HOME,这时要在 /etc/sudoers/ 中加入Defaults env_keep+=JAVA_HOME。在新建/etc/default/bigtop-utils 在其中加入 export JAVA_HOME=java的路径，再source 刷新一下。

2016-11-11 12:01:14 2027

原创安装Apache Kylin时遇到的问题

一：当在ubuntu下执行check_env.sh时遇到问题：KYLIN_HOME is set to /usr/local/apache-kylin-1.5.4.1-bin cat: invalid option -- '1' Try 'cat --help' for more information. -mkdir: Not enough arguments: expected 1 but

2016-11-08 21:59:32 6164 1

转载简明网络I/O模型---同步异步阻塞非阻塞之惑

网络I/O模型人多了，就会有问题。web刚出现的时候，光顾的人很少。近年来网络应用规模逐渐扩大，应用的架构也需要随之改变。C10k的问题，让工程师们需要思考服务的性能与应用的并发能力。网络应用需要处理的无非就是两大类问题，网络I/O，数据计算。相对于后者，网络I/O的延迟，给应用带来的性能瓶颈大于后者。网络I/O的模型大致有如下几种：同步模型（synchronous I/O）

2016-11-06 11:04:10 572

原创 Socket通信原理简介

Socket通信原理简介字数813 阅读4009 评论3 喜欢17何谓socket计算机，顾名思义即是用来做计算。因而也需要输入和输出，输入需要计算的条件，输出计算结果。这些输入输出可以抽象为I/O（input output）。Unix的计算机处理IO是通过文件的抽象。计算机不同的进程之间也有输入输出，也就是通信。因此这这个通信也是通过文件的抽象文件描述符来进行。在同一

2016-11-06 11:01:50 482

转载高性能IO模型浅析

高性能IO模型浅析服务器端编程经常需要构造高性能的IO模型，常见的IO模型有四种：（1）同步阻塞IO（Blocking IO）：即传统的IO模型。（2）同步非阻塞IO（Non-blocking IO）：默认创建的socket都是阻塞的，非阻塞IO要求socket被设置为NONBLOCK。注意这里所说的NIO并非Java的NIO（New IO）库。（3）IO多路复用（IO Mu

2016-11-01 09:59:16 339

原创构造算法的思维过程

相信大部分同学曾经都学习过快速排序、Huffman、KMP、Dijkstra等经典算法，初次学习时我们惊叹于算法的巧妙，同时被设计者的智慧所折服。于是，我们仔细研读算法的每一步，甚至去证明算法的正确性，或者是去尝试优雅地实现这些算法。总之，我们会花费很大的时间精力去理解这些智慧的结晶。然而，现在对于这些经典的算法你仍然了然于胸吗？就算现在你仍然记得这些算法的步骤，你敢确保一年后、十年后自己不会

2016-10-24 11:51:13 2533 1

转载 Linux IO模式及 select、poll、epoll详解

t同步IO和异步IO，阻塞IO和非阻塞IO分别是什么，到底有什么区别？不同的人在不同的上下文下给出的答案是不同的。所以先限定一下本文的上下文。本文讨论的背景是Linux环境下的network IO。一概念说明在进行解释之前，首先要说明几个概念：- 用户空间和内核空间- 进程切换- 进程的阻塞- 文件描述符- 缓存 I/O用户空间与内核空间现在操作系统都是

2016-10-08 09:33:02 453

原创 python decode encode问题

为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”？本文就来研究一下这个问题。字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（deco

2016-10-05 10:21:27 614

转载集体智慧和协同过滤

首页最新文章经典回顾开发设计IT技术职场业界极客创业访谈在国外伯乐在线 >首页 > 所有文章 > IT技术 > 协同过滤（CF）算法详解和实现协同过滤（CF）算法详解和实现2016/06/24 · IT技术 · 协同过滤, 推荐系统, 算法分享到：8数据结构探险—栈篇

2016-09-08 16:58:24 882

转载 SparkSQL与Hive on Spark的区别与联系

简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中，Spark和MapReduce在同一个层级，即主要解决分布式计算框架的问题。架构Spark的架构如下图所示，主要包含四大组件：Driver、Master、Worker和Executor。Spark特点Spark可以部署在

2016-09-05 16:37:55 6143

原创 hive on spark VS SparkSQL VS hive on tez

hive on spark VS SparkSQL VS hive on tez前一篇已经弄好了SparkSQL，SparkSQL也有thriftserver服务，这里说说为啥还选择搞hive-on-spark：SparkSQL-Thriftserver所有结果全部内存，快是快，但是不能满足查询大量数据的需求。如果查询几千万的数据，SparkSQL是搞不定的。而hive-o

2016-09-04 23:06:33 8105 1

原创 Socket鏈接與Http鏈接的區別

首先一定要明白：HTTP协议：简单对象访问协议，对应于应用层，HTTP协议是基于TCP连接的tcp协议：对应于传输层ip协议：对应于网络层 TCP/IP是传输层协议，主要解决数据如何在网络中传输；而HTTP是应用层协议，主要解决如何包装数据。Socket是对TCP/IP协议的封装，Socket本身并不是协议，而是一个调用接口（API），通过Socket，

2016-09-04 21:51:54 563

原创 linux下查看哪个端口被哪个进程占用

比如我们要查看50070的端口被哪个进程占用，先使用sudo netstat -ap|grep 50070 ,这时可以得出由哪个进程号占用了50070端口，再由该pid号aaaa，使用ps -aux|grep aaaa 来得出该进程号对用的进程。

2016-09-03 19:28:05 678

转载深度解析mysql登錄原理

使用mysql数据库的第一步必然是建立连接登录，然后在上面执行SQL命令。无论是通过mysql的客户端，还是通过C-API，JDBC标准接口连接数据库，这个过程一定少不了。今天我们聊一聊mysql登陆具体过程，里面会涉及client与server的交互，并通过tcpdump抓包给大家展现这一过程。TCP握手协议远程连接数据库，mysql采用TCP协议通信，第一步是建立连接，即T

2016-08-26 21:14:53 583

原创 hive與hadoop交互過程

Hive有三种用户接口：cli (Command line interface)bin/hive或bin/hive –service cli命令行方式（默认）hive-server/hive-server2bin/hive –service hiveserver 或bin/hive –service h

2016-08-26 20:11:34 1255

原创运行hadoop jar 报错java.lang.RuntimeException: java.lang.ClassNotFoundException: xxxxMapper及mapreduce执行

最近做hadoop集群试验，用的hadoop1.0.2，遇到这么个问题，将写好的jar包，放到linux上后，执行hadoop jar hadoopTest.jar test.XXXCount input output 后，运行时，会报下面的警告WARN mapred.JobClient: No job jar file set. User classes may not be

2016-08-21 21:31:40 2852

转载 Hive 元數據詳細介紹

本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，Hive的元数据是怎么生成和存储的。13.1 存储Hive版本的元数据表（VERSION）该表比较简单，但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本

2016-08-17 22:30:59 757

转载如何提高人脸检测速度

首先，我承认这个题目有点标题党。之所以写这篇，因为发现微信微博上有很多公司介绍他们的技术，但都是说如何如何牛，但缺少技术细节，对读者帮助有限。因此写一点相对干货多的东西，希望能帮助大家。如有谬误，也请大家多加指正。下面的内容适合正在用Boosting方法做目标检测的读者，也适合对提升算法速度感兴趣的读者。下面的这些内容，都已经应用到我们的人脸检测算法中，对于提升算法速度发挥了巨大作用。O

2016-08-11 10:07:38 4325

转载 Join cascade face detctor alignment

==================================关键词：人脸检测人脸校准特征点定位决策树随机森林 CART RandForest RandFern Boosting Realboost==================================转载注明来自http://www.cnblogs.com/sciencefans/人脸检测（detect

2016-08-10 11:30:50 425

转载 GCC编译器使用

GCC编译器使用来源：archimedes | 时间：2014-12-31 11:03:18 | 阅读数：34393[导读] 一、GCC简介通常所说的GCC是GUN Compiler Collection的简称，除了编译程序之外，它还含其他相关工具，所以它能把易于人类使用的高级语言编写的源代码构建成计算机能够直接执行的二进制代码。GCC是Linux平台下最一、GCC简介

2016-08-02 09:48:52 638

原创 L2范数防止过拟合以及矩阵特征值分解的几何意义

1 L2惩罚项1.1 惩罚项　　为了防止世界被破坏，为了维护世界的和平……不好意思，这篇一开头就荒腔走板！某些线性模型的代价函数包括惩罚项，我们从书本或者经验之谈中学习到惩罚项主要有两个作用：为了防止模型过拟合，为了维护模型的简洁性。常见的惩罚项有L0、L1和L2惩罚项，其中L0惩罚项为权值向量W中不为0的分量个数，L1惩罚项为权值向量W各分量的绝对值之和，这两个惩罚项皆可以很好地维持权值

2016-07-21 11:36:46 4127

Design a simplified version of Twitter where users can post tweets, follow/unfollow another user and is able to see the 10 most recent tweets in the user's news feed. Your design should support the fo

2016-07-17 16:17:55 383

转载各种优化方法总结比较（sgd/momentum/Nesterov/adagrad/adadelta）

这里讨论的优化问题指的是，给定目标函数f(x)，我们需要找到一组参数x，使得f(x)的值最小。本文以下内容假设读者已经了解机器学习基本知识，和梯度下降的原理。SGDSGD指stochastic gradient descent，即随机梯度下降。是梯度下降的batch版本。对于训练数据集，我们首先将其分成n个batch，每个batch包含m个样本。我们每次更新都利用一

2016-07-11 09:36:20 1574

转载常见面试之机器学习算法思想简单梳理

找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，而随着科技的不断发展，相信这方面的人才需求也会越来越大。　　纵观IT行业的招聘岗位，机器学习之类的岗位还是挺少的，国内大点的公

2016-07-03 11:21:05 950

转载五种开源协议的比较(BSD,Apache,GPL,LGPL,MIT) – 整理

当Adobe、Microsoft、Sun等一系列巨头开始表现出对”开源”的青睐时，”开源”的时代即将到来！最初来自：sinoprise.com/read.php?tid-662-page-e-fpage-1.html（遗憾的是这个链接已经打不开了），我基本未改动，只是进行了一些排版和整理。参考文献：http://www.fsf.org/licensing/licenses/现今存在的开

2016-06-29 20:30:27 512

原创为什么MongoDB采用B树索引，而Mysql用B+树做索引

先从数据结构的角度来答。题主应该知道B-树和B+树最重要的一个区别就是B+树只有叶节点存放数据，其余节点用来索引，而B-树是每个索引节点都会有Data域。这就决定了B+树更适合用来存储外部数据，也就是所谓的磁盘数据。从Mysql（Inoodb）的角度来看，B+树是用来充当索引的，一般来说索引非常大，尤其是关系性数据库这种数据量大的索引能达到亿级别，所以为了减少内存的占用，索引也会被存储

2016-06-28 15:48:42 9110 4

原创 HDFS详解

本文用到了查看hadoop源码，关于hadoop源码导入Eclipse方式见第一期一、HDFS的背景介绍随着数据量越来越大，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。学术一点的定义就是：分布式文件系统是一种允许文件通过网络在多台主机上分享的文件的系统

2016-06-28 09:04:27 978

转载神经网络Trick之DropConnect

和maxout(maxout简单理解)一样，DropConnect也是在ICML2013上发表的，同样也是为了提高Deep Network的泛化能力的，两者都号称是对Dropout(Dropout简单理解)的改进。　　我们知道，Dropout是在训练过程中以一定概率1-p将隐含层节点的输出值清0，而用bp更新权值时，不再更新与该节点相连的权值。用公式描述如下：　　其中v是n*1维

2016-06-23 21:46:53 1332

转载神经网络的Trick之Dropout的理解与实现

Dropout是2012年深度学习视觉领域的开山之作paper：《ImageNet Classification with Deep Convolutional》所提到的算法，用于防止过拟合。在我刚入门深度学习，搞视觉的时候，就有所耳闻，当时只知道它是为了防止过拟合。记得以前啥也不懂，看到《ImageNet Classification with Deep Convolutional》的思路，然后

2016-06-23 21:27:35 8464 3

转载交叉熵代价函数（cross-entropy cost function）

1.从方差代价函数说起代价函数经常用方差代价函数（即采用均方误差MSE），比如对于一个神经元（单输入单输出，sigmoid函数）,定义其代价函数为：其中y是我们期望的输出，a为神经元的实际输出【 a=σ(z), where z=wx+b 】。在训练神经网络过程中，我们通过梯度下降算法来更新w和b，因此需要计算代价函数对w和b的导数：然后更新w、b：w b 因为

2016-06-23 10:37:10 32438 7

转载 TensorFlow架构

TensorFlow又是好久没有写博客了，上班以来，感觉时间过得飞快，每天时间很紧，过得有点累，不知道自己的博客能坚持到何时，且行且珍惜。本片博文是参考文献[1]的阅读笔记，特此声明TensorFlow，以下简称TF，是Google去年发布的机器学习平台，发布以后由于其速度快，扩展性好，推广速度还是蛮快的。江湖上流传着Google的大战略，Android占领了移动端，TF占领神

2016-06-22 16:02:04 598

转载 python利用utf-8编码判断中文英文字符

下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符，全角符号转半角符号，unicode字符串归一化等工作。 #!/usr/bin/env Python# -*- coding:GBK -*- """汉字处理的工具:判断unicode是否是汉字，数字，英文，或者其他字符。全角符号转半角符号。""" _

2016-06-20 22:07:06 735

原创对于张量的形象理解

作者：White Pillow链接：https://www.zhihu.com/question/23720923/answer/32739132来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。------------------------------Dan Fleisch是《AStudent’s Guide to Vectors a

2016-06-19 21:23:18 27525 6

原创先验概率与后验概率以及贝叶斯公式

先验概率与后验概率事情还没有发生,要求这件事情发生的可能性的大小,是先验概率. 事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率.一、先验概率是指根据以往经验和分析得到的概率，如全概率公式，它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率，如贝叶斯公式中的，是“执果寻因”问题中的“因”。先验概率与后验概率有不可分割

2016-06-19 10:53:51 3473

转载 LSA潜在语义分析

在Wiki上看到的LSA的详细介绍，感觉挺好的，遂翻译过来，有翻译不对之处还望指教。原文地址：http://en.wikipedia.org/wiki/Latent_semantic_analysis前言浅层语义分析（LSA）是一种自然语言处理中用到的方法，其通过“矢量语义空间”来提取文档与词中的“概念”，进而分析文档与词之间的关系。LSA的基本假设是，如果两个词多次出

2016-06-18 21:20:52 1116

转载 python 查询 MongoDB 数据库pymongo.errors.OperationFailure: cursor id '26777532088498352' not valid at se

python 查询 MongoDB 数据库。偶尔会遇到pymongo.errors.OperationFailure: cursor id '26777532088498352' not valid at server这样的问题。今天看了下文档，找到了原因。你在用db.collection.find()的时候，它返回的不是所有的数据，而实际上是一个“cursor”。它的默认行为是：第一

2016-06-16 22:28:05 4634 1

转载 LDA主题模型

理解LDA，可以分为下述4个步骤：一个函数：gamma函数，两个分布：beta分布、Dirichlet分布，一个模型：LDA（文档-主题，主题-词语），一个采样：Gibbs采样本文便按照上述4个步骤来阐述，希望读者看完本文后，能对LDA有个尽量清晰完整的了解。并且，本文基于邹博讲LDA的PPT 、rickjin的LDA数学八卦以及其它参考资料写就，可以定义为一篇学习笔记，若

2016-06-16 09:03:56 1074

转载机器学习算法工程师需要掌握的技能与要踩的坑

1. 前言本来这篇标题我想的是算法工程师的技能，但是我觉得要是加上机器学习在标题上，估计点的人会多一点，所以标题成这样了，呵呵，而且被搜索引擎收录的时候多了一个时下的热门词，估计曝光也会更多点。不过放心，文章没有偏题，我们来说正经的。今天就说说机器学习这个最近两年计算机领域最火的话题，这不是一篇机器学习的技术文章，只是告诉大家机器学习里面的坑实在是太多，而且很多还没入门或者刚刚入门的朋友们

2016-06-10 17:13:40 15246 6

空空如也

空空如也