自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 [python爬虫]如何爬取特定网页的图片

#!/usr/bin/env python# -*- coding:utf-8 -*-"""Created on Sun Aug 02 20:10:36 2015@author: lijiong"""import urllibimport sysimport chardetimport redef get_html(url): page = urllib.ur

2015-08-02 23:47:13 1397

转载 [python]findall函数讲解

findall函数返回的总是正则表达式在字符串中所有匹配结果的列表,此处主要讨论列表中“结果”的展现方式,即findall中返回列表中每个元素包含的信息。@1.当给出的正则表达式中带有多个括号时,列表的元素为多个字符串组成的tuple,tuple中字符串个数与括号对数相同,字符串内容与每个括号内的正则表达式相对应,并且排放顺序是按括号出现的顺序。@2.当给出的正则表达式

2015-08-02 23:31:20 4012 1

原创 [python爬虫]获取html中文乱码时的方法

用python做网页爬虫时经常会出现乱码问题。下面给出解决中文乱码问题的解决方法。其中需要一个chardet的模块。使用pip install chardet安装即可。pip list命令可以查看安装的包,如果出现有chardet就说明安装好了。import urllib2import sysimport chardetreq = urllib2.Request("http://w

2015-08-02 20:15:31 3800

转载 正则表达式模板大全

__author__ = small5e4444原帖地址:http://blog.csdn.net/small5e4444/article/details/5740018只能输入数字:"^[0-9]*$"。只能输入n位的数字:"^/d{n}$"。只能输入至少n位的数字:"^/d{n,}$"。只能输入m~n位的数字:。"^/d{m,n}$"只能输入零和非零开头的数字:

2015-08-01 22:22:58 1247

原创 [python]字符串的排序

在实际应用中,对字符串进行排序是很常有的事情。但是字符串本身是不可变的,需要对字符串转变为List类型,然后再调用list.sort()。      list.sort()本身不返回值,如果需要判断的话千万不要使用List1.sort() == list2.sort()这种形式,这个是永远成立的!!此时list本身的内容已经改变,直接判断list1 == list2即可。

2015-08-01 16:09:34 1629

原创 [python]字母和ASCII的转换

将ASCII字符转换为对应的数值: 使用ord函数,ord('a')反正,使用chr函数,将数值转换为对应的ASCII字符,chr(65)

2015-08-01 15:36:47 1933

原创 [python]如何对字符串进行大小写转换

小写转换:string.lower()大写转换:string.upper()首字母大写,其余小写的方法: string.capitalize()所有单词首字母大写,其余小写:string.title()

2015-08-01 15:28:02 1108

原创 [python]如何快速地翻转字符串

在Python中翻转字符串是很常用的一个操作,简单粗暴一点可以使用循环来翻转,或者使用python切片string[::-1]来翻转。这个表达式的意思是从末尾开始向前面取字符,省略了两个参数0和len(string)。

2015-08-01 15:00:52 669

原创 如何打开.pkl的文件

pkl文件是python里面保存文件的一种格式,如果直接打开会显示一堆序列化的东西。正确的打开方式如下:import cPickle as picklef = open('path')info = pickle.load(f)print info #show file

2015-07-27 21:56:20 65358 3

原创 利用正则表达式提取qq号

# -*- coding: utf-8 -*-"""Created on Sun Jul 26 23:19:32 2015@author: lijiong"""import repath = 'C:/Users/lijiong/Desktop/qq_number.txt'file_qq = open(path)for line in file_qq.readlines():

2015-07-27 00:44:18 2951

原创 简单二维点的聚类

今天用sklearn里面的K-Means实现了简单的点的聚类。#!/usr/bin/python#-*- coding : UTF-8 -*-import numpy as npimport scipy as spimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom sklearn import clust

2015-07-26 21:46:31 5206

原创 正则表达式的应用(持续更新ing)

使用 | 表示或者,使用格式如下: (r ‘[] | [] | [] ‘, s)一些特殊的字符需要转义,比如*,^,%,$等,加\表示转义\s表示空格,\s*表示若干个空格,\s+表示至少一个空格

2015-07-25 22:17:49 496

原创 过滤文本中的字符

过滤文本中的特殊字符过滤文本中的字符可用re.sub()函数来实现。re.sub()有三个必选参数,分别是pattern,repl,string.pattern是匹配的正则表达式,repl是要换成的字符串,string是源字符串。 下面代码实现了去除string中的英文字母和数字。 import re new_string = re.sub("[A-Za-z0-9]", "", stri

2015-07-25 20:16:18 648

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除