littler_monkey1223-CSDN博客

原创如何解决base64 不能解码问题

如果解码的时候出现'Incorrect padding' 时候我们可以这样解决：import base64def b6(str): return base64.b64decode(str+'='*(4-len(str)%4))因为Base64是把3个字节变为4个字节，所以，Base64编码的长度永远是4的倍数，因此，需要加上=把Base64

2018-01-12 16:25:27 19280 1

原创 python爬虫系列（七）：XPath的使用

（一）简介与安装之前我们了解了bs4 处理HTML文档，今天来看看另一种方式，就是lxml,也就是XPath类库。我们可以先将HTML文件转换为XML文档，然后用Xpath查找自己想要的内容的所在节点就可以了。那么XML被设计为传输和存储数据，焦点是数据的内容，而页面HTML则是显示数据以及更好的显示数据。安装很简答，用我们的老朋友pip 进行安装即可。pip install lxml,而

2017-09-24 21:01:23 6924

原创 python爬虫系列（六）：强大的beautifulsoup

(一)简介和安装beautifulsoup 是一个可以从HTML或者XML文件中提取数据的python库。他能通过你喜欢的转换器实现文档的导航，查找的方式。安装：在新版的Debain 或ubuntu直接通过–>apt-get install python-bs4 还可以pip insatall bs4 因为第三方lxml 比python标准库的HTML解析起来

2017-09-23 22:26:18 659

原创 python爬虫系列（五）:多线程实例

相信大家经过前几篇博客的浏览已经对爬虫不算是陌生了，那今天博主来说说多线程的使用吧。就是因为GPL这个家伙,人们把python中的多线程视为鸡肋。但是就是这样的鸡肋在爬虫中是非常有必要的。原因在这里就不阐述了。（密集I/o操作的程序中，这个鸡肋还是很香的呢！）下面通过一个具体的事例来介绍多线爬虫。话不多说，直接上代码。from urllib import requestimport queuef

2017-09-22 22:44:17 1026

原创 python爬虫系列（四）:请求伪装的做法

（一）:Handler 处理器和自定义的Opener之前我们，一直使用的是request.urlopen去获取响应信息。如果想要添加代理的话，cookie等其他的http/https高级的功能。我们需要自己去实现一体opener: 1.使用相关的Handler处理器来创建特定功能的处理器对象。 2.然后通过request.build_opener()去定义 3.使用自定

2017-09-21 22:52:38 2476

原创 python爬虫系列（三）:第三方库requests 的使用

（一）requests的安装1 如果你的机器上安装了anaconda了的话，可以选择conda install requests 安装。假如你对anaconda 不熟悉的话可以前往 http://blog.csdn.net/little_monkey1223/article/details/77170727 了解，这篇文章关于如何使用第三方库管理工具anaconda描述的很详细。 2

2017-09-20 21:37:37 2186

原创 python爬虫系列（二）：标准库的使用（A）

（一）Py2和Py3中的基本库使用的区分Urllib库是python中的一个功能强大的，用于操作URL。python2和python3中用法基本相同，但是。python2中分为urllib和urllib2库。下面列出常见的变化有： 1.python2.x使用import urllib2-->python3.x使用import urllib.request, urllib.error2.pytho

2017-09-19 22:53:04 2437

原创 python爬虫系列（一）：爬虫简介

一什么是爬虫爬虫：就是抓取网页数据的程序。二、爬虫怎么抓取网页数据：网页三大特征： -1. 网页都有自己唯一的URL（统一资源定位符）来进行定位 -2. 网页都使用HTML （超文本标记语言）来描述页面信息。 -3. 网页都使用HTTP/HTTPS（超文本传输协议）协议来传输HTML数据。爬虫的设计思路： -1. 首先确定需要爬取的网页URL地址。 -2. 通过HTTP/HT

2017-09-19 18:06:43 3330 1

原创各大浏览器内核的爱恨缠绵的故事

User-Agent 历史故事：爬虫你肯定少不了的User-Agent的代理。那有没有兴趣了解一下他们的前世今生呢？ Mosaic 世界上第一个浏览器：美国国家计算机应用中心，是浏览器的鼻祖。后来，Netscape 网景：Netscape（支持框架），慢慢开始流行….(第一款支持框架的浏览器)。慢慢的Microsoft 微软：Internet Explorer（也支持框架），这

2017-09-19 17:47:29 1896

原创实现简单的"nginx+uwsgi+django"的服务器架构

1，安装uwsgi pip install uwsgi测试uwsgi写一个uwsgi_test.pydef application(env, start_response): start_response('200 OK', [('Content-Type','text/html')]) return "Hello World"然后执行shell指令：uwsg

2017-09-16 17:44:51 2602

原创 SSH远程连接服务器

ssh介绍：ssh安全外壳协议，专为远程登录会话和其他网络服务提供安全性的协议，利用 ssh可以有效的防治远程管理过程中的信息泄露问题。传统的网络服务程序，发ftp,pop,telnet在本职上都是不安全的，他们是用明文传送口令和数据，ssh是把所有的传输数据加密，并且压缩来加快传输速度。确认是否安装了ssh： rpm -qa | grep rsync 出现：cli

2017-09-16 17:39:12 2651

0x00 字符的编码计算机毕竟是西方国家的发明，最开始并没有想到会普及到全世界，只用一个字节中的7位（ASCII）来表示字符对于现在庞大的文字数量来说显然不够，所以先后经历了好几套编码方案，不同国家和地区又有自己的方案，造成了现在诸多的历史遗留问题。具体讲述编码原理请看这篇文章：PYTHON编码的前世今生0x01 Python中的字符串Python有两种不同的字符串，一种存储文本，一种存储字节。对于

2017-09-15 10:38:21 792

原创 python 中的pickle数据序列化模块

python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。　　基本接口：　　pickle.dump(obj, file, [,protocol]) 　　注解：将对象obj保存到文件file中去。　　　　　protocol为序列

2017-09-14 19:52:03 1138

原创文章标题

迭代器与生成器迭代器（iterator）与生成器（generator）是 Python 中比较常用又很容易混淆的两个概念，今天就把它们梳理一遍，并举一些常用的例子。for 语句与可迭代对象（iterable object）：for i in [1, 2, 3]: print(i) 1 2 for i in [1, 2, 3]: print(i)1 2 3 1 2

2017-09-03 16:39:47 1059

原创简谈对CPU的亲和度（cpu_affinity）

最近的工作中对性能的要求比较高，就简单的谈下。　　CPU的亲和性，就是进程要在指定的 CPU 上尽量长时间地运行而不被迁移到其他处理器，也称为CPU关联性；再简单的点的描述就将制定的进程或线程绑定到相应的cpu上；在多核运行的机器上，每个CPU本身自己会有缓存，缓存着进程使用的信息，而进程可能会被OS调度到其他CPU上，如此，CPU cache命中率就低了，当绑定CPU后，程序就会一直在

2017-08-25 19:54:05 4243

原创 yum 安装软件时的错误解决

造成yum(大黄狗)下载出错，一般是由于python多个版本共存的原因。所以，只需将yum 设置文件固定python 版本即可。1.sudo vim /usr/bin/yum打开，将首行的python 修改为python2.72.vim /usr/libexec/urlgrabber-ext-down打开，将首行的python 修改为pytho

2017-08-25 19:46:49 2048

转载 anaconda 使用大全

Python易用，但用好却不易，其中比较头疼的就是包管理和Python不同版本的问题，特别是当你使用Windows的时候。为了解决这些问题，有不少发行版的Python，比如WinPython、Anaconda等，这些发行版将python和许多常用的package打包，方便pythoners直接使用，此外，还有virtualenv、pyenv等工具管理虚拟环境。个人尝试了很多类似的发行版，最

2017-08-14 22:18:20 1070

原创三种常见的数据库一些特性的对比

mongodb，redis，mysql 简要对比本篇内容大部分是原创，有转载的部分会贴有链接。准备学习下数据库，想对目前的主流数据库做一个简单的了解分析，就搜集了资料整理到了一块。当下主流的要数NoSql数据库了，拥有强大的高并发能力。mongodb：它是一个内存数据库，数据都是放在内存里面的。对数据的操作大部分都在内存中，但mongodb并不是单纯的内存数据库。持

2017-08-08 21:13:15 1729

原创 mongodb的几种查询方式

点查询（point query）注意：根据自己使用的版本来使用。用于查询单个值（尽管包含这个值的文档可能有多个）?1db.users.find({'age': 21}).sort({'username': -1})因为我们已经建立好复合索引，一个age一个username

2017-08-08 21:05:27 1530

转载 Mongo DB索引的使用

一、简介在MongoDB建立索引能提高查询效率，只需要扫描索引只存储的这个集合的一小部分，并只把这小部分加载到内存中，效率大大的提高，如果没有建立索引，在查询时，mongodb必须执行全表扫描，在数据量大时，效率差别就很明显，对于包括一个没有索引的排序操作的查询，服务器必须在返回任何结果之前将所有的文档加载到内存中来进行排序。索引是特殊的数据结构，

2017-08-08 19:26:27 3136

原创 Django中的template的for循环可以用到的。

在for循环中还有很多有用的东西，如下：变量描述forloop.counter索引从 1 开始算forloop.counter0索引从 0 开始算forloop.revcounter索引从最大长度到 1forloop.revcounter0索引从最大长度到 0

2017-08-05 11:49:43 1054

翻译跨站点请求伪造保护

跨站点请求伪造保护的方法

2017-08-05 09:55:10 1754

原创在使用django 的过程中难免的会使用到format表单进行提交，如果出现“CSRF验证失败. 相应中断”.该如何解决呢？

csrf问题

2017-08-05 09:18:51 10625

转载 http://blog.csdn.net/u013088062

最全Pycharm教程（1）——定制外观　　最全Pycharm教程（2）——代码风格　　最全Pycharm教程（3）——代码的调试、运行　　最全Pycharm教程（4）——有关Python解释器的相关配置　　最全Pycharm教程（5）——Python快捷键相关设置　　Pycharm作为一款强力的Python IDE，在使用过程中感觉一直找不到全面完整的参考

2017-07-24 16:44:43 594

转载 <div class="article_content tracking-ad" id="article_content" data-mod="popu_307" data-dsm="post"> <

http://student.zjzk.cn/course_ware/data_structure/web/chazhao/chazhao9.3.1.5.htm查找功能是数据处理的一个基本功能。数据查找并不复杂，但是如何实现数据又快又好地查找呢？前人在实践中积累的一些方法，值得我们好好学些一下。我们假定查找的数据唯一存在，数组中没有重复的数据存在。（1）

2017-07-20 20:52:32 1474

little_monkey1223的博客