关闭
当前搜索:

正则表达式的特殊字符

正则表达式的特殊字符  符号  说明  ^  正则表达式的开始字符  $  正则表达式的结束字符  \w  匹配字母、数字、下划线  \W  匹配不是字符、数字、下划线的字符  \s  匹配空白字符  \S  匹配不是空白的字符  \d  匹配数字  \D  匹配非数字的字符 ...
阅读(43) 评论(0)

encode和decode

字符串在Python内部的表示是unicode编码. 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再unicode编码(encode)成另一种编码。     decode的作用是将其他编码的字符串转换成unicode编码,     如str1.decode('gb2312'),表示将gb2312编码的字符串转换成unicod...
阅读(48) 评论(0)

[python] 转义符、格式化字符串的替代符

http://xukaizijian.blog.163.com/blog/static/170433119201111114255393/...
阅读(52) 评论(0)

re模块中match对象的方法和属性

属性和方法  说     明  Pos  搜索的开始位置  Endpos  搜索的结束位置  String  搜索的字符串  Re  当前使用的正则表达式的对象  Lastindex  最后匹配的组索引  Lastgroup  最后匹配的组名  group(index=0)  某个分组的匹配结果。如果index等...
阅读(47) 评论(0)

cookielib模块基础学习

# -*- coding: utf-8 -*- # python:2.x __author__ = 'Administrator' import cookielib #主要用于处理http客户端的cookie   #cookielib.loadError在一个异常文件中失败加载,是IOEerror的子类 #cookielib.CookieJar用于存储cookie对象,此模块...
阅读(60) 评论(0)

cookielib的使用

为什么要获取cookie直接写这段代码就可以: #获取一个保存cookie的对象  cj = cookielib.LWPCookieJar() #将一个保存cookie对象,和一个HTTP的cookie的处理器绑定  cookie_support = urllib2.HTTPCookieProcessor(cj)  #创建一个opener,将保存了cookie的http处理器,还...
阅读(79) 评论(0)

cookielib 模块基本运用

cookielib 模块提供了可储存 cookie 的对象。捕获cookie后并在后续连接请求的重新发送。处理包含 cookie 的文件 1. CookieJar:储存在内存中 import urllib2 import cookirlib cookie = cookielib.CookieJar() handler = urllib2.HTTPCookieProcessor(cooki...
阅读(46) 评论(0)

零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers

在开始后面的内容之前,先来解释一下urllib2中的两个个方法:info / geturl  urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl() 1.geturl(): 这个返回获取的真实的URL,这个很有用,因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同...
阅读(91) 评论(0)

Python中Http的GET或POST请求支持Gzip压缩

【问题】  在用python抓取网页的时候,很多网页返回的html的数据量比较大,比如好几十KB,  希望在提交http的请求的时候,支持Gzip压缩,已减少数据量传输。 【解决过程】  1.参考  http://flyash.itcao.com/post_1117.html  中说的, 只需要在header中添加accept-encoding就可以了。  去试试。  2....
阅读(56) 评论(0)

设置Accept-Encoding为gzip,deflate,返回的网页是乱码

用C#写代码去获取网页内容。 其中request的header中,设置Accept-Encoding为gzip,deflate: req = (HttpWebRequest)WebRequest.Create(gSkydriveUrl); req.Headers.Add("Accept-Encoding", "gzip,deflate"); 结果始终返回是乱码: ...
阅读(75) 评论(0)

【经验总结】Http,网页访问,HttpRequest,HttpResponse相关的知识

以下记录自己在用C#语言,实现网页内容抓取,模拟登陆网页等过程中,所从无到有,一点点知道的一些知识,记录下来,以供参考(高手不要笑哈):   1.Host不是自己指定/设置的,而是http请求会自动去设置 用C#写http请求的header中,开始以为Host也是自己设置的: req.Headers.Add(“Host”, “login.live.com”); 结果发...
阅读(69) 评论(0)

Python 2.x中常见字符编码和解码方面的错误及其解决办法

Python 2.x中的字符编码,设计的的确不好,导致初学者,甚至是即使用Python很长时间的人,都会经常遇到字符编解码方面的错误。 下面就把一些常见情,尽量的都整理出来,并给出相应的解决办法。 看此文之前 Python中字符编码所涉及的背后逻辑(从你输入字符,到终端显示字符的背后过程) 在去了解Python编码解码之前,还有个更加重要,但是很多时候却被其他解释相关知...
阅读(34) 评论(0)

Python 2.x中的和编码相关的常见问题和注意事项

声明: 1.本文不再更新。 2.本人内容,已合并到: 【总结】Python中常见字符编码和解码方面的错误及其解决办法 新帖子总结的更加全面,并且分析了原因,和总结了解决办法,还给出了示例代码。 3.这方面的内容,如有更新,也只会更新到上述新帖子中。 Python 2.x中,的确是,经常性地,容易出现字符编码相关的错误。 即便像我这样的,算是在字符编码折...
阅读(56) 评论(0)

【整理】Python的字符编码检测库:charade和chardet的区别

【背景】 之前用过Python的chardet: https://pypi.python.org/pypi/chardet (代码下载在:https://github.com/dcramer/chardet) 现在,在看Requests的编码方式时,看到有个新的字符编码检测库: charade https://pypi.python.org/pypi/chara...
阅读(60) 评论(0)

【教程】如何用Python中的chardet去检测字符编码类型

【背景】 之前已经使用过chardet了,也算用了不少次了。 之前也写过和chardet相关的: 【已解决】windows下,安装python的chardet 【问题】Python中用Chardet检测出来从Windows的cmd中输入的字符串的编码是KOI8-R,而不是所希望的GBK或GB2312 【整理】Python的字符编码检测库:charade和chardet...
阅读(61) 评论(0)

str字符和unicode字符的区别

实际情况是,beautifulsoup处理后的网页,的确是utf-8的。而utf-8和unicode,本身就不相等。 首先,字符串分两种,一种是str字符,一种是unicode字符。str字符,就是普通字符,某种编码的字符,包括ANSI,GBK,UTF-8等,而Unicode就是原始的unicode,未经过encode编码的unicode,而进过某种编码,比如utf-8,gbk等编码后的unic...
阅读(43) 评论(0)

Win7中的Cmd命令行的使用技巧

对于Windows系统中的cmd工具,很多人都知道和使用过。 我之前也用过,但是后来看到了这个:Windows7 CMD提示的5个技巧,才发现,原来还有更多的一些小技巧,是之前不知道的。所以现在来总结一下: 【win7中cmd的一些高级的使用技巧】 先说说我之前不知道的一些功能: 1.cmd中按F7,可以调出(之前所输入的)命令的历史列表 上图: 用法是...
阅读(64) 评论(0)

Python 抓取网页学习系列之一(网页编码格式

第一步:你需要知道你所抓取的网页编码格式,方法:右键查看网页编码,ctrl +F ,搜索:charset 会看到:gbk" />,OK确定是gbk编码格式了; 为什么会提到编码,这里大概讲讲原理:     我们看到的所有字符,在计算机里面都是用01010101二进制编码,然后你要想在屏幕上看到ABCD,计算机需要指定某个特定的二进制串来对应ABCD,比如A是011,0100是B等,每个字母都...
阅读(47) 评论(0)

自学Python八 爬虫大坑之网页乱码

Bug有时候破坏的你的兴致,阻挠了保持到现在的渴望。可是,自己又非常明白,它是一种激励,是注定要被你踩在脚下的垫脚石!   python2.7中最头疼的可能莫过于编码问题了,尤其还是在window环境下,有时候总是出现莫名其妙的问题,有时候明明昨天还好好的,今天却突然。。。遇到这种问题真的是一肚子的火。。。fuck!   首先,在我们编写python代码的时候就要注意一些编码的规范。 ...
阅读(85) 评论(0)

github使用入门 之GIT GUI Windows版

申明下是原创。 这二天网上也看了不少关于github使用的文章,github对代码管理也开始用起来了。这篇给github新手看,大牛们请跳过。 github说白了就是版本管理库,最常用的就是程序代码管理了。不过我也在github上看到有人在用它作为书本编辑,确实很强大。   本篇内容包括 github基础安装github提交一个版本github删除版本库   ...
阅读(91) 评论(0)
32条 共2页1 2 下一页 尾页
    个人资料
    • 访问:2471次
    • 积分:70
    • 等级:
    • 排名:千里之外
    • 原创:0篇
    • 转载:32篇
    • 译文:0篇
    • 评论:0条
    文章分类
    文章存档