2017年05月_MHSMIE

12月 09月 08月 07月 05月

原创 chardet检测爬到的网页的编码

下载地址使用方法，将压缩包解压，将里面的文件复制到python安装目录下的\Lib\site-packages下import chardet import urllib #可根据需要，选择不同的数据 TestData = urllib.urlopen('http://www.baidu.com/').read() print chardet.detect(TestDa

2017-05-15 21:14:49 600 2

原创 pytho爬虫中文乱码解决方法

刚接触BeautifulSoup，在命令行输出爬取到网页的内容时，中文一直是乱码，很气。中文乱码很容易想到是编码不对的问题，可是对编码方式的原理老姐也不多，对这个工具也不是很了解，只能硬着头皮去尝试，反正最后一定能解决首先是遇到的问题源码为# -*-coding:utf-8 -*-import urllibimport urllib2url="http://www.baid

2017-05-15 17:12:17 1063

原创 re.sub 使用方法

re.sub功能是对于一个输入的字符串，利用正则表达式，来实现字符串替换处理的功能返回处理后的字符串re.sub共有五个参数三个必选参数 pattern，repl，string两个可选参数count，flagspattern，表示正则中的模式字符串反斜杠加数字（\n）表示对应匹配的组repl，表示要被替换的，可以是字符串也可以是函数，如果是字符串的，则所有的反斜

2017-05-14 17:06:02 32658