Julia之初体验（八）中文字符

最新推荐文章于 2024-06-21 19:13:58 发布

bowen2006

最新推荐文章于 2024-06-21 19:13:58 发布

阅读量10w+

点赞数 5

分类专栏： Julia

本文链接：https://blog.csdn.net/bowen2006/article/details/106313881

版权

Julia 专栏收录该内容

18 篇文章

订阅专栏

本文探讨了Julia语言中如何处理UTF-8编码的字符串，包括字符索引、切片操作及有效索引的获取。通过示例说明了如何避免索引错误，并介绍了nextind和prevind函数的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

中文一般采用Unicode和 UTF-8编码。

julia> s = "\u2200 x \u2203 y"
"∀ x ∃ y"

julia> p="你是好人"
"你是好人"

把UTF-8（中文）字符串切片时到注意：字符∀是三个字节字符，因此索引2和3无效，下一个字符的索引为4；该下一个有效索引可以由nextind（s，1）计算，其后的下一个索引可以由nextind（s，4）计算，依此类推。

julia> s[1]
'∀': Unicode U+2200 (category Sm: Symbol, math)

julia> s[2]
ERROR: StringIndexError("∀ x ∃ y", 2)
[...]

julia> s[3]
ERROR: StringIndexError("∀ x ∃ y", 3)
Stacktrace:
[...]

julia> s[4]
' ': ASCII/Unicode U+0020 (category Zs: Separator, space)

julia> s[end-1]
' ': ASCII/Unicode U+0020 (category Zs: Separator, space)

julia> s[end-2]
ERROR: StringIndexError("∀ x ∃ y", 9)
Stacktrace:
[...]

julia> s[prevind(s, end, 2)]
'∃': Unicode U+2203 (category Sm: Symbol, math)

julia> s[1:1]
"∀"

julia> s[1:2]
ERROR: StringIndexError("∀ x ∃ y", 2)
Stacktrace:
[...]

julia> s[1:4]
"∀ "

julia> p[1]
'你': Unicode U+4F60 (category Lo: Letter, other)

julia> p[2]
ERROR: StringIndexError("你是好人", 2)
Stacktrace:
 [1] string_index_err(::String, ::Int64) at .\strings\string.jl:12
 [2] getindex_continued(::String, ::Int64, ::UInt32) at .\strings\string.jl:220
 [3] getindex(::String, ::Int64) at .\strings\string.jl:213
 [4] top-level scope at none:0

julia> p[4]
'是': Unicode U+662F (category Lo: Letter, other)

为了不出错，还是用迭代器吧。这里面把错误的地方忽略了。

julia> for i = firstindex(s):lastindex(s)
           try
               println(s[i])
           catch
               # ignore the index error
           end
       end

还有一个更好的方法，字符串本来就可以作为迭代器使用。注意：for c in s这个后面没有冒号，与python不同。

julia> for c in s
           println(c)
       end
∀

x

∃

y

julia> for i in p
       print(i)
       end
你是好人


python>for c in s:
           print(c)
∀

x

∃

y

如果需要获取字符串的有效索引，则可以使用nextind和prevind函数递增/递减到下一个/上一个有效索引。还可以使用eachindex函数来迭代有效的字符索引。collect()函数是用来创建array。

julia> collect(eachindex(s))
7-element Array{Int64,1}:
  1
  4
  5
  6
  7
 10
 11