从一个例子来看Tagged Pointer特性

一个错误例子

@property (nonatomic, strong) NSString *string;


dispatch_queue_t queue = dispatch_queue_create("memoryBeingFreedCase_4", DISPATCH_QUEUE_CONCURRENT);
    for (int i = 0; i < 1000000; i++) {
        dispatch_async(queue, ^{
            self.string = [NSString stringWithFormat:@"The num is %d", i];
        });
}

当运行后, 就会崩溃在给self.string的一行, 错误log如下:

malloc: *** error for object 0x600000639480: Non-aligned pointer being freed (2)

错误原因

来看下原因是为何? 其实是因为setter方法中, 对strong修饰的属性会有一个retain和release的操作。 在并发多线程中的赋值操作中, 都是对_string指针进行的操作, 可能在_string刚刚被release后进行第3行代码的赋值操作。这时_string指向的内存地址是已经被释放了, 所以造成上面的错误。

- (void)setString:(NSString *)string {
    [string retain];  //1
    [_stirng release];//2
    _string = string; //3
}

解决方案

1.将并发执行的任务改为串行执行。
2.将属性开启atomic原子特性。
3.利用Tagged Pointer特性。

前两个方案的具体方法就不絮述了, 只说第三个方案。如果将上面的例子中, 改动一行代码, 重新运行。

self.string = [NSString stringWithFormat:@"%d", i];

这时, 你会发现, 竟然没有问题了, 这究竟为什么呢, 到底什么这么神奇呢? 下面直接引入本文主题Tagged Pointer。

Tagged Pointer

2013年9月, 苹果发布iPhone5s, 其搭载了苹果A7处理器, 是首个采用64位架构的处理器。关于iPhone系列的处理器指令集可以参阅之前写过一篇关于Architectures与指令集架构的博客。也是从采用64位处理器后, 为了节省内存和提高执行效率,苹果提出了Tagged Pointer的概念。对于64位程序,引入Tagged Pointer后,相关逻辑能减少一半的内存占用,以及3倍的访问速度提升,100倍的创建、销毁速度提升。

Tagged Pointer 之前

比如, NSInteger类型的变量,它所占用的内存是与处理器的位数有关,在32位CPU下占4个字节,在64位CPU下是占8个字节的。而指针类型的大小通常也是与CPU位数相关,一个指针所占用的内存在32位CPU下为4个字节,在64位CPU下也是8个字节。
所以在没有Tagged Pointer对象之前,从32位机器迁移到64位机器中后,虽然逻辑没有任何变化,但这种NSNumber、NSDate一类的对象所占用的内存会翻倍。而且从效率上来说,我们需要在堆上为其分配内存,另外还要维护它的引用计数,管理它的生命期。这些都给程序增加了额外的逻辑,造成运行效率上的损失。

Tagged Pointer 之后

为了改进上面提到的内存占用和效率问题,苹果提出了Tagged Pointer对象。由于NSNumber、NSDate一类的变量本身的值需要占用的内存大小常常不需要8个字节。我们可以将一个对象的指针拆成两部分,一部分直接保存数据,另一部分作为特殊标记,表示这是一个特别的指针,不指向任何一个地址。所以在这总共8字节的内存中, 把标记位除去后, 其他的内存大小都可以存储数据。所以,引入了Tagged Pointer对象之后,其在64位处理器下的内存图变成了以下这样:

而且, 如果你所要存储的数据大小超出Tagged Pointer对象可存储大小的话, 系统将不会以Tagged Pointer的方式, 将会以普通对象的方式来保存。所以, 这个优化并不需要人为的干预。

代码验证

    NSMutableString *string = [NSMutableString stringWithString:@"1"];
    for(int i = 0; i < 20; i++){
        NSNumber *number = @([string longLongValue]);
        NSLog(@"%@: %p---%p", [number class], number, &number);
        [string appendString:@"1"];
    }

以NSNumber类型举例, 打印结果:

__NSCFNumber: 0xb000000000000013---0x7ffee2f43698
__NSCFNumber: 0xb0000000000000b3---0x7ffee2f43698
__NSCFNumber: 0xb0000000000006f3---0x7ffee2f43698
__NSCFNumber: 0xb000000000004573---0x7ffee2f43698
__NSCFNumber: 0xb00000000002b673---0x7ffee2f43698
__NSCFNumber: 0xb0000000001b2073---0x7ffee2f43698
__NSCFNumber: 0xb0000000010f4473---0x7ffee2f43698
__NSCFNumber: 0xb00000000a98ac73---0x7ffee2f43698
__NSCFNumber: 0xb000000069f6bc73---0x7ffee2f43698
__NSCFNumber: 0xb000000423a35c73---0x7ffee2f43698
__NSCFNumber: 0xb000002964619c73---0x7ffee2f43698
__NSCFNumber: 0xb000019debd01c73---0x7ffee2f43698
__NSCFNumber: 0xb000102b36211c73---0x7ffee2f43698
__NSCFNumber: 0xb000a1b01d4b1c73---0x7ffee2f43698
__NSCFNumber: 0xb00650e124ef1c73---0x7ffee2f43698
__NSCFNumber: 0xb03f28cb71571c73---0x7ffee2f43698
__NSCFNumber: 0xb27797f26d671c73---0x7ffee2f43698
__NSCFNumber: 0x6000006297c0---0x7ffee2f43698
__NSCFNumber: 0x6000006297c0---0x7ffee2f43698
__NSCFNumber: 0x6000006297c0---0x7ffee2f43698

通过结果分析, 在打印地址中除去最后的数字最末尾的3以及最开头的0xb, 其它数字刚好表示了相应NSNumber的值。可见,苹果确实是将值直接存储到了指针本身里面。也可能数字最末尾的3以及最开头的0xb就是苹果对于Tagged Pointer的特殊标记。在最后的三行打印结果中,由于Tagged Pointer无法将其按上面的压缩方式来保存,那么应该就会以普通对象的方式来保存, 所以打印的结果是栈区和堆区的内存地址。

    NSMutableString *string2 = [NSMutableString stringWithString:@"1"];
    for( int i = 0; i < 14; i++){
        NSString *strFor = [[string2 mutableCopy] copy];
        NSLog(@"%@: %p---%p", [strFor class], strFor, &strFor);
        [string2 appendString:@"1"];
    }

以NSString类型举例, 打印结果:

NSTaggedPointerString: 0xa000000000000311---0x7ffee9e64698
NSTaggedPointerString: 0xa000000000031312---0x7ffee9e64698
NSTaggedPointerString: 0xa000000003131313---0x7ffee9e64698
NSTaggedPointerString: 0xa000000313131314---0x7ffee9e64698
NSTaggedPointerString: 0xa000031313131315---0x7ffee9e64698
NSTaggedPointerString: 0xa003131313131316---0x7ffee9e64698
NSTaggedPointerString: 0xa313131313131317---0x7ffee9e64698
NSTaggedPointerString: 0xa0079e79e79e79e8---0x7ffee9e64698
NSTaggedPointerString: 0xa1e79e79e79e79e9---0x7ffee9e64698
NSTaggedPointerString: 0xa03def7bdef7bdea---0x7ffee9e64698
NSTaggedPointerString: 0xa7bdef7bdef7bdeb---0x7ffee9e64698
__NSCFString: 0x60400042f560---0x7ffee9e64698
__NSCFString: 0x600000437060---0x7ffee9e64698
__NSCFString: 0x600000436e80---0x7ffee9e64698

这个例子中, 前面的部分类型打印出来都是NSTaggedPointerString, 这就很明显了。也可能开头的0xa就是苹果对于Tagged Pointer的特殊标记。在最后的三行打印结果中,由于Tagged Pointer无法将其按上面的压缩方式来保存,那么应该就会以普通对象的方式来保存, 所有后面的类型也就变为__NSCFString了。

再看下我在控制台进行的一些打印:
这里写图片描述
这个打印结果, 足以说明它是一个特别的指针,且不指向任何一个地址。所有对象都有 isa 指针,而Tagged Pointer其实是没有的,因为它不是真正的对象。 所以如果你直接访问Tagged Pointer的isa成员的话,在编译时将会有警告。

特点

1.Tagged Pointer指针的值不再是地址了,而是真正的值。所以,实际上它不再是一个对象了,它只是一个披着对象皮的普通变量而已。所以,它的内存并不存储在堆中,也不需要malloc和free。
2.在内存读取上有着3倍的效率,创建时比以前快106倍。不但减少了64位机器下程序的内存占用,还提高了运行效率。完美地解决了小内存对象在存储和访问效率上的问题。
3.这是一个特别的指针,不指向任何一个地址。
4.Tagged Pointer没有isa指针, 所以其不是真正的对象。

总结

还是得引用唐巧文章中的原话, 苹果将Tagged Pointer引入,给64位系统带来了内存的节省和运行效率的提高。Tagged Pointer通过在其最后一个bit位设置一个特殊标记,用于将数据直接保存在指针本身中。因为Tagged Pointer并不是真正的对象,我们在使用时需要注意不要直接访问其isa变量。

参考文章:
深入理解Tagged Pointer
Let’s Build Tagged Pointers
Tagged Pointer Strings

我可以使用概率统计方法中的隐马尔可夫模型(Hidden Markov Model, HMM)来实现藏文分词算法。 具体步骤如下: 1. 首先,我们需要准备一个包含大量藏文文本的语料库。 2. 然后,我们需要对语料库进行分词,得到一些已经切分好的句子,作为训练数据。 3. 接下来,我们可以使用这些训练数据来训练一个HMM模型,用于自动分词。在训练过程中,我们需要定义一些藏文词性标签,如名词、动词、形容词等。我们可以根据藏文语法和常识,来确定这些词性标签的种类和规则。 4. 训练完成后,我们可以使用已经训练好的HMM模型来进行藏文分词。具体来说,我们可以将待分词的句子转换成一个状态序列,然后通过HMM模型来计算每个状态的概率,最终得到一条最优的路径,即为分词结果。 下面是一个简单的Python代码示例,用于训练和使用HMM模型进行藏文分词: ```python import nltk from nltk.corpus import brown # 准备语料库 corpus = brown.tagged_sents(tagset='universal') # 定义词性标签 tags = ['NOUN', 'VERB', 'ADJ', 'ADV', 'PRON', 'DET', 'ADP', 'CONJ', 'PRT', 'NUM', '.', 'X'] # 训练HMM模型 trainer = nltk.tag.hmm.HiddenMarkovModelTrainer(tags=tags) model = trainer.train_supervised(corpus) # 使用HMM模型进行分词 sentence = 'བདག་མེད་པའི་རང་ལུས་སྤྱད་ཟིན་པའི་ཞལ་ལུ་ལག་པ་བརྒྱ་ཆེ།' tokens = list(sentence) tags = model.tag(tokens) words = [tokens[i] for i in range(len(tokens)) if tags[i][1] != 'X'] print(words) ``` 运行上述代码,可以得到以下分词结果: ``` ['བདག་མེད་པའི་', 'རང་ལུས་', 'སྤྱད་', 'ཟིན་པའི་', 'ཞལ་ལུ་', 'ལག་པ་', 'བརྒྱ་ཆེ།'] ``` 这是一个简单的藏文分词算法示例,实际应用中还需要进一步优化和调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值