爬虫之碎片笔记(beautifulsoup库、文件读写、解码与编码、json、时间戳)

1、beautifulsoup库
安装库:开始菜单输入cmd -> 打开命令框 ->输入 :

pip   install bs4

参考文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

2、基础文本操作

打开文件 open():r(默认模式) ;  w(此状态下无法执行 .read()方法);   a(追加到文末);
读取文件  :如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果是配置文件,调用readlines()最方便;
写文件:write() 以 w模式写入文件,如果存在会直接覆盖,如果要追加到文末,用a;
关闭文件:close();
# (1) 打开
# open('文件路径','访问模式')

'''访问模式

三个主访问模式:
    'r' 只读:如果文件不存在报错,不支持写  (该模式是open默认模式)
    'w' 写入:如果文件不存在新建文件,写入时覆盖原有内容
    'a' 追加:如果文件不存在新建文件,写入时在原有内容基础上追加新内容

带有b的模式:
    'rb,wb,ab':内容都是以二进制形式展现,具体操作与主模式相同。
    
带有+的模式:
    'r+,w+,a+':在对应的主模式基础上,增加了可读功能
    
'''

# (2)读写操作

# 写
# 文件.write('写入的内容')

# 读
# 文件.read(num)

''' 
num: 读取的数据长度 或者 是字节数
当访问模式是r模式读取的指定数据的长度
当访问模式是rb模式读取的指定数据的长度
'''

# 文件.readlines( )   # 需要赋值给一个变量
# 将整个文件中的内容一次性读取,并返回一个列表,原文件中每一行的数据为一个元素,例如['aaa\n','bbb\n',ccc]
# 每一行都有换行自带\n,最后一行没有换行不带\n



# 文件.readline( )    # 需要赋值给一个变量
# 一次性读取一行内容,第一次调用读取第一行,第二次调用读取第二行,不带换行符\n

# (3)关闭

# 文件对象.close( )

3、解码与编码

windows : encoding='gbk'默认;
mac、linux: encoding='utf-8'默认
#ascii :  适用于美国;
#万国码 -- Unicode : 中、日、韩国、、  所占一个中文占4个字节;  
#utf-8: 一个中文占三个字节;
#GBK:只针对中国的文字 ,一个中文占两个字节;
#以二进制形式读取
with open(r'D:\9250\桌面\1.txt','rb') as f:
    #解码  (可在txt右下角查看当前电脑是utf-8还是gbk,ANSI在Windows中指的即是gbk)
    print(f.read().decode('UTF-8'))
#以二进制形式写入
with open(r'D:\9250\桌面\1.txt','wb') as f:
    #编码
    content='hi你好'
    content=content.encode('gbk')
    f.write(content)

4、json

import json
# 将json字符串转化成python中的数据类型
dic = json.loads('{"age":"18"}')
dic['age']
import json
# 将py中的容器类型转化成json字符串
json_dict = json.dumps(dict1)
#type(json_dict)为str

5、时间戳

# 1970 -1-1 00:00:00  到某个时间点的秒数
import time
# 
time.time() # 1608126116.5797598

# # 将时间戳转化成时间格式
# time.localtime(time.time())

# time.strftime("%Y-%m-%d %H:%M:%S",time.localtime(time.time()))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值