1、beautifulsoup库
安装库:开始菜单输入cmd -> 打开命令框 ->输入 :
pip install bs4
参考文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
2、基础文本操作
打开文件 open():r(默认模式) ; w(此状态下无法执行 .read()方法); a(追加到文末);
读取文件 :如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果是配置文件,调用readlines()最方便;
写文件:write() 以 w模式写入文件,如果存在会直接覆盖,如果要追加到文末,用a;
关闭文件:close();
# (1) 打开
# open('文件路径','访问模式')
'''访问模式
三个主访问模式:
'r' 只读:如果文件不存在报错,不支持写 (该模式是open默认模式)
'w' 写入:如果文件不存在新建文件,写入时覆盖原有内容
'a' 追加:如果文件不存在新建文件,写入时在原有内容基础上追加新内容
带有b的模式:
'rb,wb,ab':内容都是以二进制形式展现,具体操作与主模式相同。
带有+的模式:
'r+,w+,a+':在对应的主模式基础上,增加了可读功能
'''
# (2)读写操作
# 写
# 文件.write('写入的内容')
# 读
# 文件.read(num)
'''
num: 读取的数据长度 或者 是字节数
当访问模式是r模式读取的指定数据的长度
当访问模式是rb模式读取的指定数据的长度
'''
# 文件.readlines( ) # 需要赋值给一个变量
# 将整个文件中的内容一次性读取,并返回一个列表,原文件中每一行的数据为一个元素,例如['aaa\n','bbb\n',ccc]
# 每一行都有换行自带\n,最后一行没有换行不带\n
# 文件.readline( ) # 需要赋值给一个变量
# 一次性读取一行内容,第一次调用读取第一行,第二次调用读取第二行,不带换行符\n
# (3)关闭
# 文件对象.close( )
3、解码与编码
windows : encoding='gbk'默认;
mac、linux: encoding='utf-8'默认
#ascii : 适用于美国;
#万国码 -- Unicode : 中、日、韩国、、 所占一个中文占4个字节;
#utf-8: 一个中文占三个字节;
#GBK:只针对中国的文字 ,一个中文占两个字节;
#以二进制形式读取
with open(r'D:\9250\桌面\1.txt','rb') as f:
#解码 (可在txt右下角查看当前电脑是utf-8还是gbk,ANSI在Windows中指的即是gbk)
print(f.read().decode('UTF-8'))
#以二进制形式写入
with open(r'D:\9250\桌面\1.txt','wb') as f:
#编码
content='hi你好'
content=content.encode('gbk')
f.write(content)
4、json
import json
# 将json字符串转化成python中的数据类型
dic = json.loads('{"age":"18"}')
dic['age']
import json
# 将py中的容器类型转化成json字符串
json_dict = json.dumps(dict1)
#type(json_dict)为str
5、时间戳
# 1970 -1-1 00:00:00 到某个时间点的秒数
import time
#
time.time() # 1608126116.5797598
# # 将时间戳转化成时间格式
# time.localtime(time.time())
# time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))