Python爬虫使用函数

最新推荐文章于 2024-04-19 22:29:26 发布

error0318

最新推荐文章于 2024-04-19 22:29:26 发布

阅读量1.6k

点赞数 3

分类专栏： Python

本文链接：https://blog.csdn.net/error311/article/details/102846184

版权

5 篇文章 0 订阅

订阅专栏

1.open() 函数：打开文件

2.write() 函数：写入内容

3.close()函数：关闭文件

sp = open("D:/Python/Spyder/spyder.txt", "w") #打开文件
sp.write("os") #向文件中写入内容
sp.close()   #关闭文件

4.read()函数：读取文件所有内容

sp = open("D:/Python/Spyder/spyder.txt", "r")
data = sp.read()
print(data)
sp.close()

5.readline() 函数：读取一行

sp = open("D:/Python/Spyder/spyder.txt", "r")
while True:
	line = sp.readline()
	if len(line) == 0:
		break
	print(line)
sp.close()

正则表达式：

描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。

\f	匹配一个换页符。
\n	匹配一个换行符。
\r	匹配一个回车符。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。
\S	匹配任何非空白字符。
\t	匹配一个制表符。
\v	匹配一个垂直制表符。
\d	匹配一个数字。
\w	匹配字母或数字或下划线或汉字
\b	匹配一个单词边界，即字与空格间的位置。
\B	非单词边界匹配。
（）	标记一个子表达式的开始和结束位置。。要匹配这些字符，请使用 \( 和 \)。
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。
+	匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+。
.	匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 \. 。
[	标记一个中括号表达式的开始。要匹配 [，请使用 \[。
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?。
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\"，而 '\(' 则匹配 "("。
^	匹配非该字符集合。要匹配 ^ 字符本身，请使用 \^。
{	标记限定符表达式的开始。要匹配 {，请使用 \{。
\|	指明两项之间的一个选择。要匹配 \|，请使用 \\|。

1.rearch()函数：匹配单个字符串

参数1：模式串

参数2：主串

参数3（可选）：模式修正符（忽略大小写，.....）

import re
pat = "python"
s = "asfdhpython"
res = re.search(pat, s)
print(res)

2.match() 函数： 从起始位置开始匹配，且只匹配一次，如果不没找到，则返回None

import re
pat = "python"
s = "asfdhpython"
res = re.match(pat, s)
print(res)

3.compile() 函数：参数为模式串

4.findall() 函数：查找出所有符合串

import re
import urllib.request
pat = "p.p"
da = "hasfdjiijogaposhiphpsdifhpadphpsdh"
res = re.compile(pat).findall(da)
print(res)

1.urlopen函数：打开某个网页

参数1：打开的网址

参数2（可选）设置超时时间

from urllib import request as req
fil = req.urlopen("https://www.baidu.com",timeout=5)
print(fil.geturl())

2.urlretrieve()函数：爬取网页到本地

参数1：要爬取的网页

参数2：本地目录

from urllib import request as req
req.urlretrieve("https://www.baidu.com",filename="D:/topic_joinus/1.html")

3.urlcleanup()函数：可以将urlretrieve()中的缓存清理掉

4.info() 函数：显示信息

from urllib import request as req
fil = req.urlopen("https://www.baidu.com")
print(fil.info())

5.getcode() 函数：爬取当前网页的状态码

6.geturl()函数：当前网页的url

error0318

关注