学习
MySQL单表建议不超过2000万
依据是索引结构,数据库表存储就像excel表格一样
如有个user表在硬盘上放在user.ibd文件下,含义是user表的innodb data文件,又叫做表空间
实际上在user.ibd里一个表数据被分成很多小份数据页,每页大小16KB

为了唯一标识具体那一页,西药引入页号,前后指针,加到页头里,为了防止写一半断电情况,引入验证码到页尾
进入页面挨个遍历效率不行,数据生成一个页目录,通过二分查找的方式将效率从O(n)变成O(lgn)

B+树

找数据5最多需要简历三次磁盘IO操作,才能被加载到内存中

B-树
结构类似于这样

总结
超两千万条数据会进行4次IO操作
经验
CSV文件导入
搜索词文件导入出现两种编码格式,查看编码:
//查看文件编码
UniversalDetector detector = new UniversalDetector(null);
byte[] buf = new byte[4096];
int nread;
InputStream fis = file.getInputStream();
while ((nread = fis.read(buf)) > 0 && !detector.isDone()) {
detector.handleData(buf, 0, nread);
}
detector.dataEnd();
String encoding = detector.getDetectedCharset();
detector.reset();
修改编码格式:
String csvContent = new String(file.getBytes(), "GBK");
byte[] utf8Bytes = csvContent.getBytes("UTF-8");
ByteArrayInputStream utf8Stream = new ByteArrayInputStream(utf8Bytes);
// 使EasyExcel 读取转换后的 CSV 文件
EasyExcel.read(utf8Stream, ReportSearchTerm.class, new ReportSearchTermListener(this)).excelType(ExcelTypeEnum.CSV).sheet().doRead();
工作
氚云
编写流程,补充数据,维护现有表单,解决氚云需求问题
ERP系统
编写前端搜索词重构计划页面,修改后端sql(待测试)