lvzhanbin-CSDN博客

原创快速排序

一直都想写一篇关于快速排序的博客，但迟迟没有动笔，今天趁着这个机会，将我对于快速排序的认识进行一个总结，希望对阅读到这篇博客的你有所帮助。说起快速排序，我头脑中的第一反应就是partition操作，因为partition操作是整个快速排序的核心所在。那到底什么是partition操作呢？先来看一张图： partition操作简单地说，就是找到一个元素作为标定点(如图中的5)，经过操作后，使

2017-10-25 11:28:34 239

原创归并排序

归并排序分为自顶向下（递归），和自底向上两种方法。在开始正文之前，先来简单说明一下递归归并排序的基本步骤。简单的说，归并排序只需要四个步骤： 1）以数组中间位置为标杆，将数组分成左右两个子数组。 2）对左子数组进行归并排序。 3）对右子数组进行归并排序。 4）对分别有序的左右子数组进行一次归并操作，归并成一个数组。下面用一个简单的例子来进行说明：假设要对数组【 3, 1, 7, 5, 4

2017-10-24 17:01:06 273

原创插入排序

先用一个简单的例子来说明一下插入排序的方法。假设要对数组|5|1|4|6|进行排序，插入排序的方法为，从第二个元素，即1开始到结尾，每一轮把当前考察的元素放置在它正确的位置上。这么说还是有点抽象，结合例子来理解。第一轮：这一轮所要做的事情是把第二个元素即1，放置在合适的位置上。原:|5|1|4|6| 1）|1|5|4|6| 因为1比5小，所以和5交换了位置，此时前2个元素已经有序

2017-10-07 16:25:25 422

原创冒泡排序

先用一个简单的例子来说明一下冒泡排序的过程。假如待排序的数组为|5|4|3|2|1|，我们需要按照从小到大的顺序将这个数组进行排序，那么使用冒泡排序的步骤如下所示：第一轮：原：|5|4|3|2|1| 1）|4|5|3|2|1| 5比4大，交换位置 2）|4|3|5|2|1| 5比3大，交换位置 3）|4|3|2|5|1| 5比2大，交换位置 4）|4|3|2|1|5| 5

2017-10-07 15:32:06 219

原创为什么struct x1{struct x1 stX};无法通过编译

结构的递归定义

2017-10-06 20:22:31 274

原创 Cookie 和 Session

什么是Cookie？ Cookie是浏览器支持的一种本地存储的键值对，类似与python中的字典。为什么需要Cookie? 首先，http协议是一种无状态协议。无状态请求是指，当用户发送请求给服务器时，服务器不管是谁的请求，直接返回结果。这样的方式，在一些情况下是没有问题的，然而，如果像淘宝，在用户未登录状态下，服务器是会记住用户浏览过哪一些商品的，这时就需要使用Cookie来判别是哪一个用户了

2017-10-06 11:11:34 251

原创程序与进程的区别

程序是一堆代码和数据，它可以作为目标文件放置在磁盘上，而进程是执行中程序的一个实例。有个比较生动的比喻可以帮助理解，程序相当于剧本，而进程则是话剧。程序总是运行在某个进程的上下文环境中，根据上下文是否相同可以帮助理解fork函数和execve函数的区别。接下来先来讲一下上下文的含义。操作系统内核会为每一个进程维持一个上下文，上下文就是内核启动一个进程所需要的状态（这些状态包括寄存器，内核栈，用户

2017-10-05 15:29:28 379

原创选择排序

从今天开始把之前学习过的数据结构和算法复习一下，写下博客当做一种总结。先从最简单的O(n^2)排序算法写起，先讲一下选择排序。选择排序的思想就是遍历整个数组，假设我们是要从小到大对数组进行排序。那么每次遍历都找到数组中的当前最小元素，然后放置在它的正确位置上。举个例子，假如我们要对[10, 9, 8, 7, 6, 5, 4, 3, 2, 1]这个数组进行排序，第一次遍历时，从十个元素中找到最小的

2017-10-04 12:06:00 170

原创正则表达式

首先，先来谈一谈用python开发爬虫时为什么需要使用到正则表达式。我们知道，可以使用xpath或者css选择器来提取网页中标签的元素值，例如有一个标签为<p>中国移动13411001111</p> 此时使用xpath或者css选择器能够将“中国移动13411001111”这整个标签中的元素值提取出来，但是，如果只想要提取号码，不要文字，就需要使用正则表达式来处理了。接下来开始谈一下正则表达式的

2017-10-03 18:00:45 296

原创关于Unicode编码和UTF-8编码

说到编码，得先从ASCII编码讲起。ASCII编码是由美国人发明，美国的字符不超过255个，所以ASCII编码使用了8bit 即一个字节来存储字符。由于汉字的数量远超255个，所以中国自己发明了一个GB2312编码来表示汉字，一般的汉字使用2个字节，对于一些生僻的汉字则使用更多的字节来表示，当然，GB2313编码是可以兼容ASCII码的。然后，日本，韩国等等国家也自己发明了一套

2017-10-02 17:02:55 9644 5

转载爬虫去重策略

1)将访问过的URL存储在数据库中，每次要访问一个URL时，就从数据库中查询该URL是否已经被访问过，这种方法占用内存太大，而且每次访问一个URL都需要到数据库中查询，效率十分低下。2）将访问过的URL存储在set中，可以在O(1)的时间内查询到一个URL是否存在于set中，但是缺点是，占用内存大，比如有1亿条URL，占用的内存是： 1000000000*2byte*50字符/10

2017-10-02 16:37:15 4844

lvzhanbin的博客