一、字符编码
字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
字符编码(Character Encoding):字符编码就是将符号转换为计算机可以接受的数字代码。
1、ASCII(American Standard Code for Information Interchange),是一种单字节的编码
2、MBCS(Multi-Byte Character Set)规则:如果第一个字节是0x80以下,则仍然表示ASCII字符;
而如果是0x80以上,则跟下一个字节一起(共两个字节)表示一个字符
3、Unicode:所有语言的字符都用同一种字符集来表示, 通常是用2个字节(如果要用到非常偏僻的字符,就需要4个字节)
4、UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码
(1)互联网工程工作小组(IETF)要求所有互联网协议都必须支持UTF-8编码。
(2)UTF-8使用一至四个字节为每个字符编码:
· 128个US-ASCII字符只需一个字节编码(Unicode范围由U+0000至 U+007F)
· 带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码(Unicode范围由U+0080至U+07FF)。
· 其他基本多文种平面(BMP)中的字符(这包含了大部分常用字)使用三个字节编码。
· 其他极少使用的Unicode辅助平面的字符使用四字节编码。
5、python字符编码说明
Python2中默认的编码格式是 ASCII 格式,在没修改编码格式时无法正确打印汉字,所以在读取中文时会报错。
解决方法为只要在文件开头加入 :
# -*- coding: UTF-8 -*- 或者 # coding=UTF-8
注意: =号两边不要有空格
二、python的内置函数:
1、type():得到一个对象的类型,并返回相应的type 对象
所有类型对象的类型都是type,它也是所有Python 类型的根和所有Python 标准类的默认元类(metaclass)。
2、isinstance():判断对象是否是某种类型的实例,返回一个布尔值
3、cmp():比较两个对象
4、str()和repr():
相同:可以方便的获得python对象的字符串表示
不同:str()出来的值是给人看的字符串,repr()出来的值是给机器看的 给python看的
三、python三种模型:存储模型、更新模型、访问模型
1、存储模型:分为两类
原子存储:保存单个字面对象的类型,数字、字符串
容器类型:容纳多个对象类型,列表、元祖、字典
2、更新模型 (对象创建成功后,其值是否可以进行更新):
不可变类型:数字、字符串、元组
可变类型:列表、字典
3、访问模型(区分数据类型的首要模型):
直接访问:数字
顺序访问:字符串、列表、元组
映射访问:字典
None:Python 有一个特殊的类型,被称作 Null 对象或者 NoneType,它只有一个值
None 没有什么有用的属性,它的布尔值总是False,是一个特殊的占位符对象,通常用来初始化名字和对象