NewstarSouth-CSDN博客

原创 [python爬虫]如何爬取特定网页的图片

#!/usr/bin/env python# -*- coding:utf-8 -*-"""Created on Sun Aug 02 20:10:36 2015@author: lijiong"""import urllibimport sysimport chardetimport redef get_html(url): page = urllib.ur

2015-08-02 23:47:13 1397

转载 [python]findall函数讲解

findall函数返回的总是正则表达式在字符串中所有匹配结果的列表，此处主要讨论列表中“结果”的展现方式，即findall中返回列表中每个元素包含的信息。@1.当给出的正则表达式中带有多个括号时，列表的元素为多个字符串组成的tuple，tuple中字符串个数与括号对数相同，字符串内容与每个括号内的正则表达式相对应，并且排放顺序是按括号出现的顺序。@2.当给出的正则表达式

2015-08-02 23:31:20 4012 1

原创 [python爬虫]获取html中文乱码时的方法

用python做网页爬虫时经常会出现乱码问题。下面给出解决中文乱码问题的解决方法。其中需要一个chardet的模块。使用pip install chardet安装即可。pip list命令可以查看安装的包，如果出现有chardet就说明安装好了。import urllib2import sysimport chardetreq = urllib2.Request("http://w

2015-08-02 20:15:31 3800

转载正则表达式模板大全

__author__ = small5e4444原帖地址：http://blog.csdn.net/small5e4444/article/details/5740018只能输入数字："^[0-9]*$"。只能输入n位的数字："^/d{n}$"。只能输入至少n位的数字："^/d{n,}$"。只能输入m~n位的数字：。"^/d{m,n}$"只能输入零和非零开头的数字：

2015-08-01 22:22:58 1247

原创 [python]字符串的排序

在实际应用中，对字符串进行排序是很常有的事情。但是字符串本身是不可变的，需要对字符串转变为List类型，然后再调用list.sort()。 list.sort()本身不返回值，如果需要判断的话千万不要使用List1.sort() == list2.sort()这种形式，这个是永远成立的！！此时list本身的内容已经改变，直接判断list1 == list2即可。

2015-08-01 16:09:34 1629

原创 [python]字母和ASCII的转换

将ASCII字符转换为对应的数值：使用ord函数,ord('a')反正，使用chr函数，将数值转换为对应的ASCII字符，chr(65)

2015-08-01 15:36:47 1933

原创 [python]如何对字符串进行大小写转换

小写转换：string.lower()大写转换：string.upper()首字母大写，其余小写的方法： string.capitalize()所有单词首字母大写，其余小写：string.title()

2015-08-01 15:28:02 1108

原创 [python]如何快速地翻转字符串

在Python中翻转字符串是很常用的一个操作，简单粗暴一点可以使用循环来翻转，或者使用python切片string[::-1]来翻转。这个表达式的意思是从末尾开始向前面取字符，省略了两个参数0和len(string)。

2015-08-01 15:00:52 669

原创如何打开.pkl的文件

pkl文件是python里面保存文件的一种格式，如果直接打开会显示一堆序列化的东西。正确的打开方式如下：import cPickle as picklef = open('path')info = pickle.load(f)print info #show file

2015-07-27 21:56:20 65358 3

原创利用正则表达式提取qq号

# -*- coding: utf-8 -*-"""Created on Sun Jul 26 23:19:32 2015@author: lijiong"""import repath = 'C:/Users/lijiong/Desktop/qq_number.txt'file_qq = open(path)for line in file_qq.readlines():

2015-07-27 00:44:18 2951

原创简单二维点的聚类

今天用sklearn里面的K-Means实现了简单的点的聚类。#!/usr/bin/python#-*- coding : UTF-8 -*-import numpy as npimport scipy as spimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom sklearn import clust

2015-07-26 21:46:31 5206

原创正则表达式的应用（持续更新ing)

使用 | 表示或者，使用格式如下： (r ‘[] | [] | [] ‘, s)一些特殊的字符需要转义,比如*,^,%,$等，加\表示转义\s表示空格，\s*表示若干个空格,\s+表示至少一个空格

2015-07-25 22:17:49 496

原创过滤文本中的字符

过滤文本中的特殊字符过滤文本中的字符可用re.sub()函数来实现。re.sub()有三个必选参数，分别是pattern,repl,string.pattern是匹配的正则表达式，repl是要换成的字符串，string是源字符串。下面代码实现了去除string中的英文字母和数字。 import re new_string = re.sub("[A-Za-z0-9]", "", stri

2015-07-25 20:16:18 648

NewstarSouth的博客