在痴海的公众号看到了170道爬虫相关的题目,也参考了一些大佬的答案(主要是葫芦娃的爷爷,https://blog.csdn.net/qq_20728575/article/details/91385378),整理如下~
1.在读文件操作的时候会使用 read、readline 或者 readlines,简述它们各自的作用
答:read将整个文本都读取为一个字符串,占用内存大,readline读取为一个生成器,支持遍历和迭代,占用空间小。readlines将文本读取为列表,占用空间大。
2.json序列化:序列化是将对象状态转换为可保持或可传输的格式的过程。与序列化相对的是反序列化,它将流转换为对象。这两个过程结合起来,可以轻松地存储和传输数据。
3.json 序列化时,可以处理的数据类型有哪些?如何定制支持 datetime 类型?
答:字符串、数字(整数和浮点数)、字典、列表、布尔值、None。使用strftime将datetime格式化为标准字符串类型即可。
4.json 序列化时,默认遇到中文会转换成 unicode,如果想要保留中文怎么办?
import json
a=json.dumps({"name":"张三"},ensure_ascii=False)
print(a)
5.有两个磁盘文件 A 和 B,各存放一行字母,要求把这两个文件中的信息合并(按字母顺序排列),输出到一个新文件 C 中。
答:读取两个文件,利用split函数将字符串切割成列表,再将两个列表合并,利用sort函数对