自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

思緒凌亂

在萬千思緒中走出

原创 tensorflow 之 bazel安装 & 使用

写在文章前面: 当一个人从一个领域跨到另一个领域的时候会面临很大的改变,理论不同了,方法变换了,遇到这样挑战的时候,很多人都需要长时间去适应和习惯;这种领域的转换其实有三种,一种是理论的改变,一种是方法论的改变,另一种,则是理论和方法论都发生了改变。 1,方法论的变化,重要的应对在于做,多做,多总...

2017-04-06 19:14:01 67053 4

原创 分布式版本管理神器--GIT

一:起因 (0):最先听说的版本管理系统是svn,那是大学本科期间接触的了,当时也没有多想 —— 一个带我们的学长,告诉我们如何如何操作; (1):研究生就开始接触GIT,当时也是仅仅了解几个常用的命令,仅仅能够使用简单的日常所需要的命令;也没有深入的系统的了解,现在终于停下匆忙的脚步,思考一番,...

2015-05-14 10:58:59 2310 5

原创 大话桶排序 基数排序和计数排序

一:计数排序 (1)当输入的元素是 n 个 0 到 k 之间的整数时,它的运行时间是 Θ(n + k)。计数排序不是比较排序,排序的速度快于任何比较排序算法。由于用来计数的数组C的长度取决于待排序数组中数据的范围(等于待排序数组的最大值与最小值的差加上1),这使得计数排序对于数据范围很大的数组,需...

2015-03-29 15:22:48 1957 1

原创 DFS + 剪枝策略

一:简介 (1)相信做过ACM的人,都很熟悉图和树的深度优先搜索;算法里面有蛮力法 —— 就是暴力搜索(不加任何剪枝的搜索); (2)蛮力搜搜需要优化时,就是需要不停的剪枝,提前减少不必要的搜索路径,提前发现判断的过滤条件; (3)剪枝的核心问题就是设计剪枝判断方法,哪些搜索路径应当舍弃,哪些搜索...

2015-03-06 09:29:49 9533 1

原创 大数据之道 BitMap (按位存取)

一:起因 (0)大数据的预处理那一篇博客,仅仅讲解了如何处理数据,以及清洗数据的原则;并没有讲解大数据处理过程中,数据在内存中的存储问题,这正是本文要关注的重点。 (1)所谓大数据,就是数据量非常的大,到了TB 甚至 PB数量级,处理大数据可以分为以下方法: (2)运用现在非常火的Hadoop 和...

2015-01-26 11:35:18 4590 6

原创 大话 函数指针 和 指针函数

一:起因 (1)指针函数是指带指针的函数,即本质是一个函数。函数返回类型是某一类型的指针,即我们常见的函数类型,且返回值是指针。 (2)函数指针是指向函数的指针变量,即本质是一个指针变量,是一个指向函数(可能是代码区)的首地址的指针,正如我们都知道,数组名就是指向数组第一个元素的常量指针(详见...

2015-01-07 09:19:47 2331 12

原创 大数据处理之道(十分钟学会Python)

一:python 简介 (1)Python的由来 Python(英语发音:/ˈpaɪθən/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991 年。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语...

2014-12-19 11:15:04 11577 9

原创 走,是一辈子,不走,也是一辈子(程序猿之路)

一:起因 (0)突然有一天有人问我:你当初为什么选择计算机专业?为什么你选择计算机行业?选择计算机行业为什么选择做程序猿?我没有回答~~~因为我不知道该怎么回答。(下图只能从侧面回答) (1)当你穿梭在五颜六色的人群中,会感觉到时光的流逝;当你翘首在十字路口时,面对的是选择; (2)从...

2014-12-12 14:29:24 6868 28

原创 c++实现atoi()和itoa()函数(字符串和整数转化)

一:起因 (1)字符串类型转化为整数型(Integer),还是字符串类型(String)转化为Double类型,这在java里面有非常好的内部函数,很easy的事情; (2)但是在c里面没有Integer Double等包装类,由char[]数组转化为整数型就变得不那么简单了,atoi()  it...

2014-11-20 10:45:34 15733 17

原创 STL 之 list源代码自行实现(iterator)

一:起因 (1)数据结构里面两种非常重要的存储结构,线性结构中的连续存储结构(代表vector数组)和非连续存储结构(代表list链表),他们两者被广泛的应用在 各个领域,是最基本最基础的两种存储结构; (2)vector 已经简单的实现了,请看STL 之 vector的实现     之前还实现了...

2014-11-17 20:24:25 4963 5

原创 搜狗一面的感悟

一:自己的一些感悟 如何准备笔试: (1)笔试是非常重要的,笔试的分数直接影响你接下来的的面试,这应该算给面试官下的第一潜在的个印象(面试官告诉我,你昨天的笔试成绩还不错,这也是我作为一个霸 笔者能进入面试的关键因素吧)。虽然考的都是一些基础的东西,但是可能基础的连你自己都不知道从哪里下手。 (2...

2014-11-06 13:36:22 3226 14

原创 KMP算法详解(与最长公共子序列)

一:在介绍KMP算法之前,先介绍一下BF算法 (1)BF算法(传统的匹配算法,也是最简单的算法)  BF算法是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串P的第一个字符进行匹配,若相等,则继续比较S的第二个字符和P的第二个字符;若不相等,则比较S的第二个字符和P的第一个字符...

2014-10-24 12:02:57 3743 9

原创 哈夫曼树 之 建树和编解码

/* * 实现过程:着先通过 HuffmanTree() 函数构造哈夫曼树,然后在主函数 main()中 * 自底向上开始(也就是从数组序号为零的结点开始)向上层层判断,若在 * 父结点左侧,则置码为 0,若在右侧,则置码为 1。最后输出生成的编码。 ...

2014-09-25 19:50:17 3056 6

原创 百度2015校园招聘笔试题

百度2015校园招聘笔试题(自己ping) 一 、简答题(30分) 1. 进程和线程的联系与区别。 2. 简述数据库的存储过程及其优点。 3. static全局变量与普通的全局变量有什么区别?static局部变量和普通的区别?static函数和普通函数的区别? 二、 算法与程序设计...

2014-09-20 15:43:15 2227 5

原创 python mysql插入数据报错:TypeError: %d format: a number is required, not str

1:起因 最近工作需求 ---- 实时统计一份数据,insert到mysql数据库中; 方法: 很自然的就想到了python插入数据库,yum install MySQL-python.x86_64 à import MySQLdb(python2.X仅仅适用) 报错如下 "...

2017-07-13 19:35:32 17296 2

转载 机器学习中的特征——特征选择的方法以及注意点

在机器学习=模型+策略+算法的框架下,特征选择就是模型选择的一部分,是分不开的。这样文章最后提到的特征选择和交叉验证就好理解了,是先进行分组还是先进行特征选择。

2017-07-05 19:30:44 839 0

原创 pearson 相关系数 & 机器学习模型中不平衡样本问题

本文讨论一下几点: 1, pearson 相关系数(Pearson Correlation Coeffient) --- 皮尔逊相关系数 ; 2,信息增益(InfoGain) 、卡方检验 与特征选择;3,机器学习模型中不平衡样本问题

2017-07-05 17:47:51 4019 2

原创 python post请求实例 & json -- str互相转化(application/x-www-form-urlencoded \ multipart/form-data)

第一部分:HTTP 协议规定POST 提交的数据必须放在消息主体(entity-body)中,但协议并没有规定数据必须使用什么编码方式。常见的四种编码方式如下:1)application/x-www-form-urlencoded 2)multipart/form-data 3)applica...

2017-06-07 18:15:55 7977 0

原创 python httplib urllib urllib2区别(一撇)

python提供很多种非常友好的访问网页内容的方法,python2.x : 如 python的httplib、urllib和urllib2 ; python3.x 又提供了request的方法。同时,每种方法下面又分为:get post put delete 等method.. 一时间江湖上充...

2017-06-07 12:14:26 1308 0

转载 深度学习在推荐领域的应用 Lookalike Facebook node2vec 深度学习 推荐领域

深度学习在推荐领域的应用 Lookalike Facebook node2vec 深度学习 推荐领域

2017-06-01 16:03:47 4425 0

原创 Hadoop进阶(hadoop streaming c++实现 & MapReduce参数调优)

hadoop streaming c++实现 心得 与 MapReduce参数调用 目录: 1,机器学习 & MR Hadoop进阶(hadoop streaming c++实现 & MapReduce参数调优) hadoop streaming (shell执行 & co...

2017-05-27 11:12:19 1546 1

原创 hadoop streaming (shell执行 & combiner & 数据分割)

先上干货:hadoop.streaming 的一个完整的shell脚本;(shell执行脚本实例 & combiner初探 & 数据分割)                        21 ### 2--- tasks   22 HADOOP=/usr/bin/hadoop   ...

2017-05-23 16:25:03 3901 1

原创 推荐算法之Jaccard相似度与Consine相似度

对于个性化推荐来说,最核心、重要的算法是相关性度量算法。相关性从网站对象来分,可以针对商品、用户、旺铺、资讯、类目等等,从计算方式看可以分为文本相关性计算和行为相关性计算,具体的实现方法有很多种,最常用的方法有余弦夹角(Cosine)方法、杰卡德(Jaccard)方法等。 通过实验我们发现,对于行...

2017-05-22 16:32:11 11910 0

原创 LibLinear使用总结(L1,L2正则)

一般情况下,L1即为1范数,为绝对值之和;L2即为2范数,就是通常意义上的模。L1会趋向于产生少量的特征,而其他的特征都是0,即实现所谓的稀疏,而L2会选择更多的特征,这些特征都会接近于0。 对于solver的选择,作者的建议是:一般情况下推荐使用线性svm,其训练速度快且效果与lr接近;一般情况...

2017-05-22 15:11:46 7348 1

原创 urlencode & quote & unquote (url 中带中文参数)

当url地址含有中文或者“/”的时候,这是就需要用做urlencode一下编码转换。 一、urlencode urlencode的参数是词典,它可以将key-value这样的键值对转换成我们想要的格式。如果你用的是python2.*,urlencode在urllib.urlencode。如果使...

2017-05-22 15:07:02 4371 1

原创 linux crontab -e报错 || 不执行 || expected unqualified-id before

1,linux 新安装的centOS 或小红包系统,第一次执行crontab -e命令报错 Error detected while processing /root/.vim/bundles.vim: 2,Linux下定时任务(秒级别)的实现 --- crontab仅仅可以分钟级别,自定义脚本w...

2017-05-22 15:00:59 2352 0

原创 Tersorflow深度学习入门—— CIFAR-10 训练示例报错及解决方案

Tersorflow深度学习入门—— CIFAR-10 训练示例报错及解决方案, CNN图像分类与识别

2017-04-28 10:01:41 11110 7

原创 redis 值 hiredis (c/c++)

0 前言: python 版的redis 直接pyredis接口(pip install 即可);redis server的安装(参照http://www.cnblogs.com/lpshou/p/3167396.html 不错的); 本次是c 引入hiredis第三方模块 ~ GitHub最新的...

2017-04-11 16:11:00 671 0

原创 hadoop streaming python 处理 lzo 文件遇到的问题

1, 代码中需要注意的有: [python] view plain copy  print? #!/usr/bin/env python   #coding:utf8   line = line.decode("utf8")...

2017-04-06 20:28:02 998 0

原创 linux export 环境变量设置

在Linux里设置环境变量的方法(export PATH) 在Linux里设置环境变量的方法(export PATH) 一般来说,配置交叉编译工具链的时候需要指定编译工具的路径,此时就需要设置环境变量。例如我的mips-linux-gcc编译器在“/opt/au1200_r...

2017-04-06 18:44:00 784 0

原创 Python的库sklearn安装 & bazel安装 & cmake

Python的库sklearn安装 也可以用pip安装(如:pip installscikit-learn),但安装的位置不同,安装是包名不同(apt-get安装的python包一般前缀是python),python用的时候优先选择apt-get安装的包。如果用pip freeze 安装的包的版本...

2017-03-29 17:28:18 4178 0

原创 TF(tensorflow)安装之python

第一步:习惯性的google Git源码,readME发现源码安装太复杂;再百度安装tensorflow安装 非常全面的安装方法(中文):https://www.tensorflow.org/versions/r0.11/get_started/os_setup#pip-installation ...

2017-03-23 12:22:54 1995 0

原创 configure --prefix=/ & yum install 路径

linux, configure --prefix=/有什么用   指定安装路径 不指定prefix,则可执行文件默认放在/usr /local/bin,库文件默认放在/usr/local/lib,配置文件默认放在/usr/local/etc。其它的资源文件放在/usr /local/share。...

2017-03-23 10:49:50 1707 0

原创 GBDT 之 Boosting方法

Boosting方法概述 Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。他是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。他可以用来提高其他弱分类算法...

2017-03-23 10:33:40 663 0

原创 GBDT安装(xgboost LightGBM)

GBDT安装之xgboost LightGBM; sklearn python; Adaboost思想

2017-03-23 10:27:34 3618 0

原创 Linux RPM VS yum

0 前言: RPM是RedhatPackageManager的缩写,是由RedHat公司开发的软件包安装和管理程序; Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及SUSE中的Shell前端软件包管理器。 一、RPM是Redhat...

2016-06-08 11:55:04 391 0

原创 网络服务器搭建的那些事(PV QPS Throughput)

一、前言: 从事后台sever开发的同学,代码开发完成之后,上线之前,总会进行各种黑盒白盒测试,压测、正确性测试... 而测试同学,会给开发同学一份测试报告,需要开发同学进行确认...问题来了,里面好多专业术语,云里雾里的让人不得其解、不知所云 二、实例说明 (1)PV 推到出 QPS ...

2016-06-07 15:22:57 2163 2

原创 Linux 静态链接库和动态连接库

下面给出实例代码演示Linux下面静态链接库和动态链接库的区别:静态链接库与动态链接库都是共享代码的方式,如果采用静态链接库,则无论你愿不愿意,lib 中的指令都全部被直接包含在最终生成的 EXE 文件中了。但是若使用 DLL,那么执行时,该函数将在当前程序的执行空间里留下多份拷贝,而且是一处调用...

2016-02-15 13:49:23 2918 0

原创 spark安装与调试

I---- 1---jdk and scala install ****zyp@ubuntu:~/Desktop/software$ tar xvf jdk-7u67-linux-i586.tar.gz ****vim ~/.bashrc (vim /etc/profile false) # ...

2016-01-08 10:56:55 2072 2

原创 数据挖掘 与 Web开发何去何从

(0)引子 下面以现实生活中的一个实例引出本博客的探究点,也许类似的情况正发生在你的身边。 小弟工作5年了,最近有点迷茫。 上一份工作在一家比较大的门户网站做web开发和移动互联网数据挖掘(人手比较紧,同时做)。后来跳槽到BAT之一做数据挖掘。 数据量倒是非常大,但是感觉没有多大意思——就是分析日...

2015-12-26 21:36:13 3979 0

提示
确定要删除当前文章?
取消 删除