自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (2)
  • 收藏
  • 关注

原创 进程间通信

数据传输:一个进程需要将它的数据发送给另一个进程,发送的数据量在一个字节到几M字节之间共享数据:多个进程想要操作共享数据,一个进程对共享数据的修改,别的进程应该立刻看到。通知事件:一个进程需要向另一个或一组进程发送消息,通知它(它们)发生了某种事件(如进程终止时要通知父进程)。资源共享:多个进程之间共享同样的资源。为了作到这一点,需要内核提供锁和同步机制。进程控制:有些进程希望完全

2016-03-16 22:14:54 258

转载 海量数据处理问题

前言   一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。    毕竟受文章和理论之限,本文摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问题

2016-03-16 20:55:50 507

转载 malloc与new的区别

malloc与free是C++/C语言的标准库函数,new/delete是C++的运算符。它们都可用于申请动态内存和释放内存。对于非内部数据类型的对象而言,光用maloc/free无法满足动态对象的要求。对象在创建的同时要自动执行构造函数,对象在消亡之前要自动执行析构函数。由于malloc/free是库函数而不是运算符,不在编译器控制权限之内,不能够把执行构造函数和析构函数的任务强加于ma

2016-03-16 09:38:41 252

原创 python redis 下载

https://pypi.python.org/pypi/redis/#downloads下载地址To install redis-py, simply:$ sudo pip install redisor alternatively (you really should be using pip though):$ sudo easy_install redis

2016-03-10 11:18:04 694

转载 redis 安装和配置http://www.cnblogs.com/liuling/p/2014-4-19-02.html

http://www.cnblogs.com/liuling/p/2014-4-19-02.html1、安装前环境说明  楼主使用的是CentOS 6.5版本的Linux系统,IP为192.168.0.100。虚拟机工具使用的是VirtualBox。2、下载Redis  Redis可以到官方网站上面进行下载:http://www.redis.io/downl

2016-03-10 11:15:30 499

原创 Redis 初识

redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作,而且这些操作都是原子性的。在此基础上,redis支持各种不同方式的排序。与memcached一样,为了保证效率,数据都是

2016-03-10 11:13:59 310

原创 数学之美8

第16章    信息指纹及应用1.      信息指纹将链接对应为16个字节的随机数,称为该网址的信息指纹。信息指纹的计算步骤1)  首先将字符串转换为特别长整数2)  使用伪随机数产生器算法,将特别长的整数转化成特定长度的伪随机数(现在常用的使用梅森旋转算法,但所产生的随机数有一定的相关性,破解一个相当于破解了一大批)信息指纹不可逆,正式网络加密传输所需要的。互联

2016-03-09 17:04:12 292

原创 数学之美7

第14章     余弦定理和新闻的分类1.     新闻的特征向量对64000个汉字词进行编号,对应TF-IDF值,构成64000维的向量。2.      向量距离的度量两篇新闻的主题是否接近,取决于他们的特征向量长得像不像。利用向量的知识,计算两个向量之间的夹角来判断新闻主题的相似性。新闻的分类:(该方法准确信号,适合百万级)1)  已知一些新闻的

2016-03-09 17:01:00 381

原创 数学之美6

第1章    有限状态机和动态规划:地图与本地搜索的核心技术1.      地址分析和有限状态机有限状态机是一个特殊的有向图,它包括一些状态(节点)和连接这个状态的有向弧。使用有限状态机识别地址,关键要解决的两个问题:1)  通过一些有效的地址建立状态机2)  给定一个有限状态机后,地址字串的匹配算法为了解决自然语言模糊问题,进行模糊匹配,提出基于概率的有限状态机2.

2016-03-09 16:48:12 269

原创 数学之美5

第1章     PageRank :Google的民主表决式网页排名技术搜索引擎的网页排序:网页的质量信息;查询与网页的相关性信息1.      PageRank算法的原理核心思想:如果一个网页被很多其他网页所链接,说明他受到普遍的承认和信赖,那么它的排名就高(网页排名高的网站贡献的链接权重大)解决先有鸡蛋先有鸡的问题:二维矩阵相乘,并用迭代的方法解决了这个问题。即先假定所有的网页

2016-03-09 16:46:16 237

原创 数学之美4

第1章    贾里尼克和现代语言处理第2章     简单之美:布尔代数和搜索引擎搜索引擎的原理:自动下载网页、建立有效的索引,公平准确的排序。1.      布尔代数若文献中含有该关键词,则为True2.      索引最简单的索引结构:用一个很长的二进制数来表示关键字是否出现在这些文献中改进:通过分布式的方式将庞大的索引存储到不同的服务器上(根据网页的序号分成很多份,

2016-03-09 16:43:39 301

原创 机器学习实战笔记1

第一章  机器学习基础机器学习就是把无序的东西转换成有用的信息。1.机器学习的术语:专家系统、特征(属性)、实例、训练集(特征、目标变量)、测试数据、知识表示目标变量是机器学习算法的预测结果:分类算法中目标变量的类型一般为标称型;在回归算法中,目标变量的类型一般为连续型。2.机器学习的主要任务:监督学习:分类、回归(预测数据)无监督学习:聚类,密度估计3.NumPy函数

2016-03-09 16:37:00 490

原创 数据科学实战笔记1

第一章什么是数据科学数据化被定义成一种处理流程,将生活中的方方面转换为数据。重视数据的同时,要尊重他人的意愿。数据就是现实世界运转留下的痕迹。数据科学维恩图第二章统计推断、探索性数据分析和数据科学工作流程2.12.1.1统计推断从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。2.1.2总体和样本采样方式不同,将会得到不同的答案,结果都会失真

2016-03-09 16:35:48 416

原创 数据库必备

1.    数据库的三级模式:内模式、模式、外模式(一)、模式(Schema) 定义:也称逻辑模式,是数据库中全体数据的逻辑结构和特征的描述,是所有用户的公共数据视图。理解: ① 一个数据库只有一个模式; ② 是数据库数据在逻辑级上的视图; ③ 数据库模式以某一种数据模型为基础; ④ 定义模式时不仅要定义数据的逻辑结构(如数据记录由哪些数据项构成,数据项的名字、类型、取

2016-03-09 16:30:19 5178

原创 casperjs在windows下抓取元素乱码

如下图所示出现此种状况,加上phantom.outputEncoding="GBK";即可解决

2016-03-09 16:26:48 290

原创 背包问题poj1742

背包问题可以描述为:给定一组物品,每种物品都有自己的重量和价格,在限定的总重量内,我们如何选择,才能使得物品的总价格最高。可以分为01背包、完全背包和多重背包问题。01 背包有n 种不同的物品,每个物品有两个属性,size 体积,value 价值,现在给一个容量为 w 的背包,问最多可带走多少价值的物品。  [cpp] view plainc

2016-03-09 16:25:12 287

原创 面经2016

1.      先来自我介绍哦2.      C++基础:1)class A{};Sizeof(A)是多少?(1)为什么呢?类里面加虚函数呢?(4,指针大小)再加static int a?(还是4,不记static的大小sizeof的本质是得到某个类型的大小,确切的来说就是当创建这个类型的一个对象(或变量)的时候,需要为它分配的空间的大小。而类也可以理解为类似于int、floa

2016-03-09 16:20:42 235

转载 网络常见的端口

常见网络端口 端口:0   服务:Reserved   说明:通常用于分析操作系统。端口:1   服务:tcpmux   说明:这显示有人在寻找SGI Irix机器。端口:7   服务:Echo   说明:能看到许多人搜索Fraggle放大器时,发送到X.X.X.0和X.X.X.255的信息。端口:21   服务:FTP   说明:F

2016-01-16 16:59:19 284

转载 求一个整数的二进制中1的个数(转)

求一个整数的二进制中1的个数 收藏题目:输入一个整数,求该整数的二进制表达中有多少个1。例如输入10,由于其二进制表示为1010,有两个1,因此输出2。分析:这是一道很基本的考查位运算的面试题。包括微软在内的很多公司都曾采用过这道题。一个很基本的想法是,我们先判断整数的最右边一位是不是1。接着把整数右移一位,原来处于右边第二位的数字现在被移到第一位了,再判断是不是1。这样每次

2016-01-14 10:28:12 236

原创 数学之美(3)

第5章     隐含马尔可夫模型

2016-01-14 10:17:45 219

原创 数学之美笔记(2)

第3章    统计语言模型统计语言模型产生的初衷是为了解决语音识别问题。句子S发生的概率:利用古德-图灵估计求解概率的方法是卡茨退避法,用来进行平滑另一种平滑的方法是利用低阶语言模型和高阶语言模型进行线性插值,该方法不如卡茨规避法。语料的选取:训练数据通常越多愈好;训练数据跟应用数据一致性噪声,进行预处理第4章    

2016-01-14 10:09:21 842

原创 数学之美学习笔记(1)

第1章    文字和语言vs数字和信息文字按照意思来聚类,最终回带来一些歧义。上下文建立的概率模型也会出现错误。罗塞塔石碑对自然语言处理的两点指导意义:1.      信息的冗余是信息安全的保障。2.      语言的数据,我们称之为语料,尤其是双语或者是多语的对照语料对翻译至关重要,是我们从事机器翻译研究的基础。最早的计数工具—斯威士兰的乐邦博古十进制—编码—象形文字

2016-01-14 10:03:39 398

数学之美笔记

数学之美学习的随书笔记~~整理的重要的部分

2016-01-14

vga显示实验

vga汉字显示介绍 ,eda基于fpga

2013-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除