扩展java.io.FilterInputStream,代表的是可放回输入流。用于根据特定字符来判断流类型或编码等。
[size=medium]1. 内部存储:[/size]
[size=medium]2. 构造函数:[/size]
[size=medium]3. 读取[/size]
[size=medium]4. 放回[/size]
[size=medium]5. 预估剩余可读取字节数[/size]
[size=medium]6. 跳过[/size]
[size=medium]7. 不支持mark相关的操作[/size]
[size=medium]8. 例子:去除UTF文件的BOM头[/size]
BOM (Byte Order Mark),包含三个字节"EF BB BF"。文件的开始位置有这几个字节,表明是UTF文件,读取数据的时候需要忽略它们。
[size=medium]1. 内部存储:[/size]
protected byte[] buf; // 缓冲区,从底层流获取数据
protected int pos; // 下一个要读取字节的位置
protected volatile InputStream in; // 底层流,继承自FilterInputStream
[size=medium]2. 构造函数:[/size]
public PushbackInputStream(InputStream in, int size) {
super(in);
if (size <= 0) {
throw new IllegalArgumentException("size <= 0");
}
this.buf = new byte[size];
this.pos = size;
}
public PushbackInputStream(InputStream in) {
this(in, 1);
}
[size=medium]3. 读取[/size]
// 从缓冲区(+底层流)读取数据,放到指定数组上。返回读取字节的个数。
public int read(byte[] b, int off, int len) throws IOException {
ensureOpen();
if (b == null) {
throw new NullPointerException();
} else if (off < 0 || len < 0 || len > b.length - off) {
throw new IndexOutOfBoundsException();
} else if (len == 0) {
return 0;
}
int avail = buf.length - pos; // 缓冲区可读取字节数
if (avail > 0) {
if (len < avail) { // 缓冲区可读取字节数够用
avail = len; // 给avail赋值,防止len-avail相减为负
}
System.arraycopy(buf, pos, b, off, avail); // 读取操作
pos += avail; // 读取位置后移 avail位
off += avail; // 偏移值后移 avail位
len -= avail; // 还需读取字节数
}
if (len > 0) { // 还需读取
len = super.read(b, off, len); // 从底层流读取
if (len == -1) { // 未读取到数据
return avail == 0 ? -1 : avail; // avail为0,表示都没有读取到数据;否则为从缓冲区读取数
}
return avail + len; // 总读取数 = 从缓冲区读取数 + 从底层流读取数
}
return avail; // 从缓冲区读取数
}
[size=medium]4. 放回[/size]
public void unread(int b) throws IOException {
ensureOpen();
if (pos == 0) { // 缓冲区已满
throw new IOException("Push back buffer is full");
}
buf[--pos] = (byte) b; // 然后读取位置回退,该位置重新设置为原来的值
}
public void unread(byte[] b, int off, int len) throws IOException {
ensureOpen();
if (len > pos) { // 缓冲区回退长度不够
throw new IOException("Push back buffer is full");
}
pos -= len; // 回退len个字节
System.arraycopy(b, off, buf, pos, len); // 将len个字节放回
}
[size=medium]5. 预估剩余可读取字节数[/size]
public int available() throws IOException {
ensureOpen();
return (buf.length - pos) + super.available(); // 缓冲区可读取数 + 底层可读取数
}
[size=medium]6. 跳过[/size]
public long skip(long n) throws IOException {
ensureOpen();
if (n <= 0) {
return 0;
}
long pskip = buf.length - pos; // 缓冲区可用存储位置个数
if (pskip > 0) {
if (n < pskip) { // 可用个数比跳过个数少
pskip = n; // pskip赋值为n,防止n -= pskip小于0
}
pos += pskip; // 读取位置后移pskip位
n -= pskip; // 还需跳过数
}
if (n > 0) { // 还需跳过n个字节
pskip += super.skip(n); // 总跳过字节数 = 缓冲区跳过数 + 底层流skip方法跳过数
}
return pskip;
}
[size=medium]7. 不支持mark相关的操作[/size]
public boolean markSupported() {
return false;
}
public synchronized void mark(int readlimit) {
}
public synchronized void reset() throws IOException {
throw new IOException("mark/reset not supported");
}
[size=medium]8. 例子:去除UTF文件的BOM头[/size]
BOM (Byte Order Mark),包含三个字节"EF BB BF"。文件的开始位置有这几个字节,表明是UTF文件,读取数据的时候需要忽略它们。
public class BOMCleaner {
static final Logger LOG = LoggerFactory.getLogger(BOMCleaner.class);
static final int BOM_1 = 0xEF; // BOM第一个字节
static final int BOM_2 = 0xBB; // BOM第二个字节
static final int BOM_3 = 0xBF; // BOM第三个字节
public static void main(String[] args) throws IOException {
FileInputStream fis = new FileInputStream("D:/mine.txt");
InputStream cleanIs = getInputStreamWithoutBom(fis);
}
public static InputStream getInputStreamWithoutBom(InputStream in) throws IOException {
PushbackInputStream pbIn = new PushbackInputStream(in, 3);
byte[] bytes = new byte[3];
int count = pbIn.read(bytes);
if (count == 3 && (bytes[0] & 0xFF) == BOM_1 && (bytes[1] & 0xFF) == BOM_2 && (bytes[2] & 0xFF) == BOM_3) {
LOG.debug("变更文件存在BOM头");
} else {
pbIn.unread(bytes);
}
return pbIn;
}
}