1.open() 函数:打开文件
2.write() 函数:写入内容
3.close()函数:关闭文件
sp = open("D:/Python/Spyder/spyder.txt", "w") #打开文件
sp.write("os") #向文件中写入内容
sp.close() #关闭文件
4.read()函数: 读取文件所有内容
sp = open("D:/Python/Spyder/spyder.txt", "r")
data = sp.read()
print(data)
sp.close()
5.readline() 函数:读取一行
sp = open("D:/Python/Spyder/spyder.txt", "r")
while True:
line = sp.readline()
if len(line) == 0:
break
print(line)
sp.close()
正则表达式:
描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
\f | 匹配一个换页符。 |
\n | 匹配一个换行符。 |
\r | 匹配一个回车符。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。 |
\S | 匹配任何非空白字符。 |
\t | 匹配一个制表符。 |
\v | 匹配一个垂直制表符。 |
\d | 匹配 一个数字。 |
\w | 匹配 字母或数字或下划线或汉字 |
\b | 匹配一个单词边界,即字与空格间的位置。 |
\B | 非单词边界匹配。 |
() | 标记一个子表达式的开始和结束位置。。要匹配这些字符,请使用 \( 和 \)。 |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*。 |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+。 |
. | 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. 。 |
[ | 标记一个中括号表达式的开始。要匹配 [,请使用 \[。 |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。 |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("。 |
^ | 匹配 非该字符集合。要匹配 ^ 字符本身,请使用 \^。 |
{ | 标记限定符表达式的开始。要匹配 {,请使用 \{。 |
| | 指明两项之间的一个选择。要匹配 |,请使用 \|。 |
1.rearch()函数:匹配单个字符串
参数1:模式串
参数2:主串
参数3(可选):模式修正符(忽略大小写,.....)
import re
pat = "python"
s = "asfdhpython"
res = re.search(pat, s)
print(res)
2.match() 函数: 从起始位置开始匹配,且只匹配一次,如果不没找到,则返回None
import re
pat = "python"
s = "asfdhpython"
res = re.match(pat, s)
print(res)
3.compile() 函数:参数为模式串
4.findall() 函数:查找出所有符合串
import re
import urllib.request
pat = "p.p"
da = "hasfdjiijogaposhiphpsdifhpadphpsdh"
res = re.compile(pat).findall(da)
print(res)
urllib模块函数
1.urlopen函数: 打开某个网页
参数1:打开的网址
参数2(可选)设置超时时间
from urllib import request as req
fil = req.urlopen("https://www.baidu.com",timeout=5)
print(fil.geturl())
2.urlretrieve()函数:爬取网页到本地
参数1:要爬取的网页
参数2:本地目录
from urllib import request as req
req.urlretrieve("https://www.baidu.com",filename="D:/topic_joinus/1.html")
3.urlcleanup()函数:可以将urlretrieve()中的缓存清理掉
4.info() 函数:显示信息
from urllib import request as req
fil = req.urlopen("https://www.baidu.com")
print(fil.info())
5.getcode() 函数:爬取当前网页的状态码
6.geturl()函数: 当前网页的url