linux下posix编程环境,局域网如何在Linux / POSIX中运行以及应用哪些转换？

最新推荐文章于 2022-09-04 19:16:25 发布

密之山人

最新推荐文章于 2022-09-04 19:16:25 发布

阅读量161

点赞数

文章标签： linux下posix编程环境

我正在使用(希望)UTF-8文本的巨大文件.我可以使用Ubuntu 13.10(3.11.0-14-generic)和12.04来重现它.

在调查一个错误时,我遇到了奇怪的行为

$export LC_ALL=en_US.UTF-8

$sort part-r-00000 | uniq -d

ɥ ɨ ɞ ɧ 251

ɨ ɡ ɞ ɭ ɯ 291

ɢ ɫ ɬ ɜ 301

ɪ ɳ 475

ʈ ʂ 565

$export LC_ALL=C

$sort part-r-00000 | uniq -d

$# no duplicates found

当运行使用std :: stringstream读取文件的自定义C程序时,重复的操作也会出现 – 由于在使用en_US.UTF-8语言环境时重复的操作失败.

至少对于std :: string和input / output来说,C似乎不受影响.

为什么在使用UTF-8区域设置时找到重复项,而C语言环境中没有找到重复项？

导致此行为的文本的区域转换是什么？

编辑：Here是一个小例子

$uniq -D duplicates.small.nfc

ɢ ɦ ɟ ɧ ɹ 224

ɬ ɨ ɜ ɪ ɟ 224

ɥ ɨ ɞ ɧ 251

ɯ ɭ ɱ ɪ 251

ɨ ɡ ɞ ɭ ɯ 291

ɬ ɨ ɢ ɦ ɟ 291

ɢ ɫ ɬ ɜ 301

ɧ ɤ ɭ ɪ 301

ɹ ɣ ɫ ɬ 301

ɪ ɳ 475

ͳ ͽ 475

ʈ ʂ 565

ˈ ϡ 565

输出问题出现时的区域设置：

$locale

LANG=en_US.UTF-8

LC_CTYPE="en_US.UTF-8"

LC_NUMERIC=de_DE.UTF-8

LC_TIME=de_DE.UTF-8

LC_COLLATE="en_US.UTF-8"

LC_MONETARY=de_DE.UTF-8

LC_MESSAGES="en_US.UTF-8"

LC_PAPER=de_DE.UTF-8

LC_NAME=de_DE.UTF-8

LC_ADDRESS=de_DE.UTF-8

LC_TELEPHONE=de_DE.UTF-8

LC_MEASUREMENT=de_DE.UTF-8

LC_IDENTIFICATION=de_DE.UTF-8

LC_ALL=

编辑：归一化后使用：

cat duplicates | uconv -f utf8 -t utf8 -x nfc > duplicates.nfc

我仍然得到相同的结果

编辑：该文件是有效的UTF-8根据iconv – (从here)

$iconv -f UTF-8 duplicates -o /dev/null

$echo $?

它在FreeBSD上工作

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

密之山人

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

linux&shell编程基础

qwj205的博客

07-03

1282

Manuel 简写man 命令可以查看这个命令的使用信息如果这个命令是shell内嵌的命令，还需要加上-f 才能查看命令的使用列出了关于这个命令解释的几个出处，数字1表示第一册，3tcl表示第3侧，1p中的p表示posix标准（基于Unix的可移植的软件开发标准协议）使用man 1p cd 查看这个里面规定的cd的使用方法变量可以划分为系统变量和用户变量也可以划分为全局变量和局部变量常用系统变量：$HOME 当前用户的主文件夹$PWD 当前所在位置。

linux程序设计(套接字)+TCP/IP网络编程学习笔记

big_snail的专栏

03-05

4567

linux程序设计(套接字)+TCP/IP网络编程学习笔记什么是套接字?应用层通过传输层进行数据通信时，TCP和UDP会遇到同时为多个应用程序进程提供并发服务的问题。多个TCP连接或多个应用程序进程可能需要通过同一个TCP协议端口传输数据。为了区别不同的应用程序进程和连接，许多计算机操作系统为应用程序与TCP／IP协议交互提供了称为套接字(Socket)的接口，区分不同应用程序进程间的网络通信和连接

参与评论您还未登录，请先登录后发表或查看评论

linux下posix编程环境,Linux/Unix下的POSIX规范

weixin_42361026的博客

05-08

539

对正则表达式有基本了解的读者，一定不会陌生『\d』、『[a-z]+』之类的表达式，前者匹配一个数字字符，后者匹配一个以上的小写英文字母。但是如果你用过vi、grep、awk、sed之类Linux/Unix下的工具或许会发现，这些工具虽然支持正则表达式，语法却很不一样，照通常习惯的办法写的『\d』、『[a-z]+』之类的正则表达式，往往不是无法识别就是匹配错误。而且，这些工具自身之间也存在差异，同样...

linux下posix编程环境,Linux程序设计-POSIX Threads

weixin_31629313的博客

05-08

167

POSIX Threads一、需要掌握的知识点在一个进程里面创建新线程线程之间在进程里面进行同步数据访问对一个线程的属性进行修改在线程里面控制另一个同进程里面的线程二、概念由于同一进程的多个线程共享同一地址空间，因此Text Segment、Data Segment都是共享的，如果定义一个函数，在各线程中都可以调用，如果定义一个全局变量，在各线程中都可以访问到，除此之外，各线程还共享以下进程资源和...

配置 IDEA 启动的 JDK

STU756的专栏

07-03

3215

来源于：https://blog.csdn.net/isea533/article/details/78621930IDEA 64 位版本对 JDK 版本有要求，不符合的 JDK 将无法启动。很简单的一个问题，如何使用指定的 JDK 启动 IDEA？上面这个问题很简单但是在特殊环境下可能不太容易。一、方法一，配置 JDK最简单的方法就是配置系统的环境变量(JAVA_HOME,path)，配置为...

Linux中线程的使用（POSIX线程库）

qq_52575999的博客

02-15

1344

1.概念 1.什么是线程？线程是程序的执行路线，而进程是运行中的程序，通俗讲，线程就是进程的子任务，一个进程可以有多个子任务，即可以拥有多个线程。 2.线程的特点: 1).不拥有自己独立的内存资源，共享进程的代码区、数据区、堆区(注意没有栈区)、环境变量和命令行参数、文件描述符、信号处理函数、当前目录、用户ID和组ID等资源. 2).线程拥有自己独立的栈，因此也有自己独立的局部变量. 3).线程的系统开销小，任务切换快,相对于进程来说。 2.线程函数 1.pthread_create(

Linux/Unix工具与正则表达式的POSIX规范

weixin_33850890的博客

08-14

182

Linux面试题及错题积累

weixin_47133613的博客

02-23

907

以下习题来自牛客网以下答案来自广大热心网友 Linux面试题若一台计算机的内存为128MB ，则交换分区的大小通常是 A. 64MB B. 128MB C. 256MB D. 512MB 答案：C 解析：一般是内存*1.5或者2 交换分区，就是windows中虚拟内存在linux中的叫法；其空间的分配的推荐做法是：目前Red Hat（红帽官方）推荐交换分区的大小应当与系统物理内存的大小保持线性比例关系。在小于2GB物理内存的系统中，交换分区大小应该设置为内存大小的两倍；如果内存

Linux系统 ·虚拟机安装· SecureCRT远程连接器

wzq18845280610的博客

11-06

1897

一.Linux系统一.Linux介绍1.1 Linux主要特性基本思想1.2 常用Linux版本二.Linux安装和目录结构编辑虚拟机设置一.Linux介绍第一周： linux系统。第二周： hadoop集群。第三周： hdfs javaAPI 。第四周： mapreduce。 Unix: Linux： linux is not unix Linux是一套免费使用和自由传播的类Unix操作系统，是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行主要的UNIX

FFmpeg音视频开发实战5 iOS/Android/windows/Linux -陈超-专题视频课程

chenchao的专栏

05-05

2850

咨询QQ: 347181469. 本课程适合中,从事音视频,网络通讯开发的学员。实战案例可用于音视频处理，无人机，安防，直播等所有音视频领域。课程从Linux音视频采集，到TCP/IP UDP Socket服务器，客户端编程, 如何去定义网络通讯私有协议,x264,FFmpeg编解码，OpenGL ES渲染视频。OpenAL播放音频。到pcm实时转AAC,到H.264+AAC合成mp4. 整个...

使用方法及Posix系统常用命令

08-13

使用方法及Posix系统常用命令

POSIX 介绍

usstmiracle的博客

03-03

6602

POSIX表示可移植操作系统接口（Portable Operating System Interface of UNIX，缩写为 POSIX ），POSIX标准定义了操作系统应该为应用程序提供的接口标准。 POSIX标准意在期望获得源代码级别的软件可移植性。换句话说，为一个POSIX兼容的操作系统编写的程序，应该可以在任何其它的POSIX操作系统（即使是来自另一个厂商）上编译执行。简单总结：完成同一功能，不同内核提供的系统调用（也就是一个函数）是不同的，例如创建进程，linux下是fork函数..

POSIX

hellochenlu的博客

10-07

942

POSIX具有多重含义，通常指POSIX标准，该标准是一个可移植操作系统接口（Portable Operating System Interface），由IEEE提出，ANSI和ISO将其标准化。POSIX的目的是使应用程序源代码可以在兼容POSIX的操作系统上移植。理想的目标是应用程序移植到另一个操作系统只需要重新编译就可以运行。POSIX最后一个字母“X”表达了这种超乎操作系统差异的理想。目前

Linux中的进程，轻量级进程和Posix线程库

weixin_34360651的博客

11-19

2019独角兽企业重金招聘Python工程师标准>>> ...

Unicdoe【真正的完整码表】对照表（一）