1、什么情况下使用collections.defaultdict?
当定义一个字典时,某个键值不存在时会报错,但是用collections.defaultdict初始化不会报错,参数可以是int,表示value值是int类型,参数如果是list,表示value值是list列表。
2、爬虫内容:
request包请求包
import request
url=’ …’
responst=request.get(url)
即可爬到一个网页内容
要检查请求是否成功,就检查response.status_code的值是否和期望的相同(200表示成功)
print(response.text)和response.content都能返回网页内容,不同的是,text返回的是unicode型数据,而content返回的是二进制的数据。
encode编码成想要的码类型
3、字符编码
Python2下的中文字符使用utf-8编码,一个中文字由3个字节组成,一个字母由1个字节组成。
python3下的中文字符使用Unicode编码,不管是一个中文字还是字母都由一个字符表示,但是每个字符占2个字节。
4、.表示当前目录 …表示上一级目录
r+ 和 w+ 表示可以同时读和写
b代表以二进制的形式输入输出,存储图片是以二进制流的形式存储,就要用到b
5、文件命名
1)http://sports.sina.com.cn/others/volleyball/2018-12-24/doc-ihmutuee2655718.shtml
find(’/’,b)从/开始左到右的顺序查找到b结束
rfind(‘//’)从右向左到‘//’结束。
一般用domain_filename命名
2)MD5哈希函数命名
hashlib.md5(url.encode(‘utf-8’)).hexdigest()对url进行哈希运算,得到一组固定长度基本不会重复的编码
3)时间戳命名
time()
复盘知识6
最新推荐文章于 2023-02-09 16:57:58 发布