- 博客(3)
- 资源 (10)
- 收藏
- 关注
原创 chardet检测爬到的网页的编码
下载地址使用方法,将压缩包解压,将里面的文件复制到python安装目录下的\Lib\site-packages下import chardet import urllib #可根据需要,选择不同的数据 TestData = urllib.urlopen('http://www.baidu.com/').read() print chardet.detect(TestDa
2017-05-15 21:14:49 600 2
原创 pytho爬虫中文乱码解决方法
刚接触BeautifulSoup,在命令行输出爬取到网页的内容时,中文一直是乱码,很气。中文乱码很容易想到是编码不对的问题,可是对编码方式的原理老姐也不多,对这个工具也不是很了解,只能硬着头皮去尝试,反正最后一定能解决首先是遇到的问题源码为# -*-coding:utf-8 -*-import urllibimport urllib2url="http://www.baid
2017-05-15 17:12:17 1063
原创 re.sub 使用方法
re.sub功能是对于一个输入的字符串,利用正则表达式,来实现字符串替换处理的功能返回处理后的字符串re.sub共有五个参数三个必选参数 pattern,repl,string两个可选参数count,flagspattern,表示正则中的模式字符串反斜杠加数字(\n)表示对应匹配的组repl,表示要被替换的,可以是字符串也可以是函数,如果是字符串的,则所有的反斜
2017-05-14 17:06:02 32658
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人