mysql中utf8编码中文字符长度问题

转载 2012年03月27日 16:52:32

适用mysql5.0以上的版本:
 1.一个汉字占多少长度与编码有关:
         UTF-8:一个汉字=3个字节
            GBK:一个汉字=2个字节
 2.varchar(n)表示n个字符,无论汉字和英文,Mysql都能存入n个字符,仅是实际字节长度有所区别
 3.MySQL检查长度,可用SQL语言:
        select LENGTH(fieldname) from tablename 来查看

=========华丽丽分隔线,转载如下:==========
涉及到了字符长度问题,搜索了一下,几乎千篇一律, 所以决定自己测试一下,彻底弄清楚字符长度问题.
编码一律为 UTF-8 编码 :

先来测试一下 php 把一个汉字认作几个字节:

<?php
header(‘Content-Type:text/html;charset=UTF-8′);
$str=’我’;
echo strlen($str);
?>

输出 3 , 证明在 UTF-8编码下, 一个汉字被认作3个字节长度.

而如果我们用 php 多字节扩展函数 mb_strlen($str,’utf8′); 这个时候输出 1

下面来测试一下 mysql char 和 varchar 字节长度.

创建一个数据库 (txt) :
CREATE DATABASE IF NOT EXISTS txt DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
创建一个表 (test) :
create table test(txt_char char(2) null, txt_varchar varchar(2) null ) ENGINE=MyISAM
确认一下我们表的字符集: 确实是UTF8编码的.

插入两条记录:

INSERT INTO test(txt_char,txt_varchar) VALUES (‘abcdef’,'uvwxyz’) , (‘我是中国人’,'北京欢迎你’) ;
看看插入结果:

在看看查询结果:

证明 mysql 并不会对超过长度的字符报错,而是直接截断了.

并且 char(2) 和 varchar(2) 都能存储 2个汉字,或者是两个英文字符.
证明 mysql 的 char(n) 可以直接存储 n 个汉字. 而不是 n/3 个
mysql 屏蔽了具体的存储细节,而直接以实际字符的个数来决定 char存储的个数.
这里只是测试在UTF8编码下的,如果是GBK编码,可能不一样,没兴趣去测试那么多了.

下面看看终端输出:

看看 mysql 检测字符长度: length 和 char_length 输出:

LENGTH 输出的结果是 字符实际长度的!
而 CHAR_LENGTH输出的则是屏蔽了字符存储细节,是实际的字符个数!

总结一下:
在涉及中文环境下的php+mysql组合,最好是用 mb_strlen来检测字符长度, 而在mysql 中,使用 CHAR_LENGTH来检测字符长度,这样能做到中英文统一处理.

 

utf8_general_ci 不区分大小写,这个你在注册用户名和邮箱的时候就要使用。

utf8_general_cs 区分大小写,如果用户名和邮箱用这个 就会照成不良后果

utf8_bin: compare strings by the binary value of each character in the string 将字符串每个字符串用二进制数据编译存储。 区分大小写,而且可以存二进制的内容

举例说明:

 如果你的Sql查询语句: where first_name="Bob"
下面哪些字段内容会返回匹配:
'Bob' : utf8_bin, utf8_general_ci and utf8_general_cs
'B?b' : utf8_general_ci and utf8_general_cs 将?转为o
'B?B' : utf8_general_ci 不区分大小写

mysql中varchar(10)中定义的长度到底是字符长度还是字节长度

1.我们经常 mysql创建 varchar(20)  name这个 20长度 究竟是表示的字符数还是字节数?根编码字符集又有没有关系? 首先 mysql 5.X 以上的版本的 定义中 表示的字符长...
  • xiaoyu19910321
  • xiaoyu19910321
  • 2016年08月26日 09:40
  • 9037

mysql各字符集下汉字和字母占字节数

在mysql 5.1.5-alpha下测试得出如下结论 latin1:1character=1byte, 1汉字=2character,也就是说一个字段定义成 varchar(200),则它可以存储1...
  • Sidyhe
  • Sidyhe
  • 2011年03月10日 10:33
  • 7610

MySQL5.6 varchar在UTF8下存储汉字的长度

由于UTF8是变长的,有部分汉字是zhan
  • steveguoshao
  • steveguoshao
  • 2014年09月04日 15:27
  • 6141

MySQL 数据库 varchar 到底可以存多少个汉字,多少个英文呢?我们来搞搞清楚

一、关于UTF-8 UTF-8 Unicode Transformation Format-8bit。是用以解决国际上字符的一种多字节编码。 它对英文使用8位(即一个字节) ,中文...
  • ebw123
  • ebw123
  • 2016年05月05日 10:09
  • 17413

mysql 获取中文字符串长度

RT BZ在写一个区域的去重统计的sql的时候,遇到的中文字符串截取长度不对的问题。 这是原始的数据,因为在做某项操作的时候会把region_name去掉最后面一个中文,然后取一个出来拿c...
  • cainiaofeitian
  • cainiaofeitian
  • 2017年04月05日 18:54
  • 506

ORACLE MYSQL 汉字占用字节长度

ORACLE:   编码为 SIMPLIFIED CHINESE_CHINA.ZHS16GBK 的情况,一个汉字占2个字节;   编码为 SIMPLIFIED CHINESE_CHINA.AL32UT...
  • WOSHISUNXIANGFU
  • WOSHISUNXIANGFU
  • 2016年07月14日 08:26
  • 381

mysql和oracle的一个汉字占几个字符?

转载地址:http://blog.csdn.net/u011575570/article/details/47414513 以前一直使用oracle11g,一个汉字占3个字节,所以在操作M...
  • lisheng19870305
  • lisheng19870305
  • 2016年12月16日 15:34
  • 4117

MySql中UTF8 和 GBK 编码中文字符长度问题

MySql中UTF8 和 GBK 编码中文字符长度问题对于初学者来说是必须了解的一个问题,本篇博文详细介绍了在MYSQL中UTF8 和 GBK 编码中文字符长度,并加以实验说明。...
  • risingsun001
  • risingsun001
  • 2013年07月19日 10:35
  • 10227

mysql 中utf8编码存放中文汉字问题

今天对mysql数据库进行操作时,发现始终存不进数据库,搞了很久才发现这张表字符长度为VARCHAR(20),而我存入的汉字超过了7个! 经过查询才知道汉字字符转换问题,以前也知道,但是并没有引起注...
  • AllenPL
  • AllenPL
  • 2016年10月17日 14:28
  • 670

mysql中的utf8字符集与标准UTF-8的区别

尽管字面上非常相似,但mysql的utf-8的覆盖范围仅仅是所有UTF-8字符集的一部分。这非常容易误导初学者。UTF-8是UCS字符集的一种编码方式,可能将一个字符编码为1个字节,2个字节,3个字节...
  • u012918303
  • u012918303
  • 2015年03月20日 15:13
  • 2704
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:mysql中utf8编码中文字符长度问题
举报原因:
原因补充:

(最多只允许输入30个字)