- 博客(13)
- 收藏
- 关注
原创 [python爬虫]如何爬取特定网页的图片
#!/usr/bin/env python# -*- coding:utf-8 -*-"""Created on Sun Aug 02 20:10:36 2015@author: lijiong"""import urllibimport sysimport chardetimport redef get_html(url): page = urllib.ur
2015-08-02 23:47:13 1397
转载 [python]findall函数讲解
findall函数返回的总是正则表达式在字符串中所有匹配结果的列表,此处主要讨论列表中“结果”的展现方式,即findall中返回列表中每个元素包含的信息。@1.当给出的正则表达式中带有多个括号时,列表的元素为多个字符串组成的tuple,tuple中字符串个数与括号对数相同,字符串内容与每个括号内的正则表达式相对应,并且排放顺序是按括号出现的顺序。@2.当给出的正则表达式
2015-08-02 23:31:20 4012 1
原创 [python爬虫]获取html中文乱码时的方法
用python做网页爬虫时经常会出现乱码问题。下面给出解决中文乱码问题的解决方法。其中需要一个chardet的模块。使用pip install chardet安装即可。pip list命令可以查看安装的包,如果出现有chardet就说明安装好了。import urllib2import sysimport chardetreq = urllib2.Request("http://w
2015-08-02 20:15:31 3800
转载 正则表达式模板大全
__author__ = small5e4444原帖地址:http://blog.csdn.net/small5e4444/article/details/5740018只能输入数字:"^[0-9]*$"。只能输入n位的数字:"^/d{n}$"。只能输入至少n位的数字:"^/d{n,}$"。只能输入m~n位的数字:。"^/d{m,n}$"只能输入零和非零开头的数字:
2015-08-01 22:22:58 1247
原创 [python]字符串的排序
在实际应用中,对字符串进行排序是很常有的事情。但是字符串本身是不可变的,需要对字符串转变为List类型,然后再调用list.sort()。 list.sort()本身不返回值,如果需要判断的话千万不要使用List1.sort() == list2.sort()这种形式,这个是永远成立的!!此时list本身的内容已经改变,直接判断list1 == list2即可。
2015-08-01 16:09:34 1629
原创 [python]字母和ASCII的转换
将ASCII字符转换为对应的数值: 使用ord函数,ord('a')反正,使用chr函数,将数值转换为对应的ASCII字符,chr(65)
2015-08-01 15:36:47 1933
原创 [python]如何对字符串进行大小写转换
小写转换:string.lower()大写转换:string.upper()首字母大写,其余小写的方法: string.capitalize()所有单词首字母大写,其余小写:string.title()
2015-08-01 15:28:02 1108
原创 [python]如何快速地翻转字符串
在Python中翻转字符串是很常用的一个操作,简单粗暴一点可以使用循环来翻转,或者使用python切片string[::-1]来翻转。这个表达式的意思是从末尾开始向前面取字符,省略了两个参数0和len(string)。
2015-08-01 15:00:52 669
原创 如何打开.pkl的文件
pkl文件是python里面保存文件的一种格式,如果直接打开会显示一堆序列化的东西。正确的打开方式如下:import cPickle as picklef = open('path')info = pickle.load(f)print info #show file
2015-07-27 21:56:20 65358 3
原创 利用正则表达式提取qq号
# -*- coding: utf-8 -*-"""Created on Sun Jul 26 23:19:32 2015@author: lijiong"""import repath = 'C:/Users/lijiong/Desktop/qq_number.txt'file_qq = open(path)for line in file_qq.readlines():
2015-07-27 00:44:18 2951
原创 简单二维点的聚类
今天用sklearn里面的K-Means实现了简单的点的聚类。#!/usr/bin/python#-*- coding : UTF-8 -*-import numpy as npimport scipy as spimport matplotlib.pyplot as pltimport matplotlib.cm as cmfrom sklearn import clust
2015-07-26 21:46:31 5206
原创 正则表达式的应用(持续更新ing)
使用 | 表示或者,使用格式如下: (r ‘[] | [] | [] ‘, s)一些特殊的字符需要转义,比如*,^,%,$等,加\表示转义\s表示空格,\s*表示若干个空格,\s+表示至少一个空格
2015-07-25 22:17:49 496
原创 过滤文本中的字符
过滤文本中的特殊字符过滤文本中的字符可用re.sub()函数来实现。re.sub()有三个必选参数,分别是pattern,repl,string.pattern是匹配的正则表达式,repl是要换成的字符串,string是源字符串。 下面代码实现了去除string中的英文字母和数字。 import re new_string = re.sub("[A-Za-z0-9]", "", stri
2015-07-25 20:16:18 648
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人