算法通关村第十二关——不简单的字符串转换问题

前言

字符串是我们在日常开发中最常处理的数据,虽然它本身不是一种数据结构,但是由于其可以包含所有信息,所以通常作为数据的一种形式出现,由于不同语言创建和管理字符串的方式也各有差异,因此针对不同语言特征又产生了很多问题。

常见的字符串转换题目,也就是在大小写字母、数字、特殊字符这几种类型之间进行。但是在转换过程中需要处理几种特殊情况,比如当前元素能否进行转换,如果是字符串转换为数字还要考虑当前元素是不是数字,转换之后是否会溢出等。

1.转换成小写字母

力扣709题,给你一个字符串 s ,将该字符串中的大写字母转换成相同的小写字母,返回新的字符串。

分析:在计算机中,每个字符都有相应的ASCII码。我们可以根据码表操作字符串,常见的ASCII码范围:

0-9 48-57
A-Z 65-90
a-z 97-122

遍历整个字符串,对每一位字符串加以判断,如果字符串的编码值在65-90之间,就需要在原来了的ASCII值上利用按位或运算| 32就可以转换为对应小写。

代码如下:

// 使用内置函数
function toLowerCase(s) {
  return s.toLowerCase();
}

// 自行实现
let toLowerCase = function (s) {
  const res = [];
  for (let charOfWord of s) {
    if (charOfWord.charCodeAt() >= 65 && charOfWord.charCodeAt() <= 90) {
      // 使用按位或位运算表示加法
      charOfWord = String.fromCharCode(charOfWord.charCodeAt() | 32);
    }
    res.push(charOfWord);
  }
  return res.join("");
};

2.字符串转换为整数(atoi)

力扣8题,请你来实现一个 myAtoi(string s) 函数,使其能将字符串转换成一个 32 位有符号整数(类似 C/C++ 中的 atoi 函数)。

函数 myAtoi(string s) 的算法如下:

  1. 读入字符串并丢弃无用的前导空格
  2. 检查下一个字符(假设还未到字符末尾)为正还是负号,读取该字符(如果有)。 确定最终结果是负数还是正数。 如果两者都不存在,则假定结果为正。
  3. 读入下一个字符,直到到达下一个非数字字符或到达输入的结尾。字符串的其余部分将被忽略。
  4. 将前面步骤读入的这些数字转换为整数(即,“123” -> 123, “0032” -> 32)。如果没有读入数字,则整数为 0 。必要时更改符号(从步骤 2 开始)。
  5. 如果整数数超过 32 位有符号整数范围 [−231, 231 − 1] ,需要截断这个整数,使其保持在这个范围内。具体来说,小于 −231 的整数应该被固定为 −231 ,大于 231 − 1 的整数应该被固定为 231 − 1
  6. 返回整数作为最终结果。

注意:

  • 本题中的空白字符只包括空格字符 ' '
  • 除前导空格或数字后的其余字符串外,请勿忽略 任何其他字符。

分析:

参考:Gatsby/力扣官方

这里用到了自动机的解法,用图来表示:

在这里插入图片描述

用表格来表示:

’ '(空格)+/-Number其它
startstartsignedin_numberend
signedendendin_numberend
in_numberendendin_numberend
endendendendend

代码如下:

/**
 * @param {string} s
 * @return {number}
 */
var myAtoi = function(s) {
	// 自动机类
	class Automaton {
		constructor() {
			// 执行阶段:默认是开始阶段
			this.state = 'start';
			// 正负符号:默认是正数
			this.sign = 1;
			// 数值,默认是0
			this.answer = 0;
			/*
			关键点:
			状态和执行的阶段的对应表
			含义:[执行阶段, [空格], [正负号], [数值], [其它]]
			*/
			this.map = new Map([
				['start',['start', 'signed', 'in_number', 'end']],
				['signed', ['end', 'end', 'in_number', 'end']],
				['in_number', ['end', 'end', 'in_number', 'end']],
				['end', ['end', 'end', 'end', 'end']],
			]);
		}
	

		// 获取状态的索引
		getIndex(char) {
			if (char === ' ') {
				return 0;
			} else if (char === '-' || char === '+') {
				return 1;
			} else if (isNumeric(char)) {
				return 2;
			} else {
				return 3;
			}
		}

		/*
		关键点:
		字符转换执行函数
		*/
		get(char) {
			const MIN_VALUE = -Math.pow(-2, 31);
			const MAX_VALUE = Math.pow(2, 31) - 1;
			/*
			易错点:
			每次传入字符,都要变更自动机的执行阶段
			*/
			this.state = this.map.get(this.state)[this.getIndex(char)];
			if (this.state === 'in_number') {
				/*
				小技巧:
				在JS中,对字符串类型做减法操作,可以得到一个数值型(Number)的值
				
				易错点:本处需要利用括号来提高四则运算的优先级
				*/
				this.answer = this.answer * 10 + (char - 0);

				// 易错点:在进行负数比较时,需要将INT_MIN变为正数
				this.answer = (this.sign === 1 ? Math.min(this.answer, MAX_VALUE) : Math.min(this.answer, MIN_VALUE));
			} else if (this.state === 'signed') {
				/*
				优化点:
				对于一个整数来说,非正即负,
				所以正负号的判断,只需要一次。
				所以可以降低其判断的优先级
				*/
				this.sign = (char === '+' ? 1 : -1);
			}
		}
	}

	// 判断传进来的字符串是不是数字
	function isNumeric(s) {
	  return /^-?\d+(\.\d+)?$/.test(s);
	}

	// 生成自动机实例
	let automaton = new Automaton();

	// 遍历每个字符
	for (let char of s) {
		// 依次进行转换
		automaton.get(char);
	}

	// 返回值,整数 = 正负 * 数值
	return automaton.sign * automaton.answer;
};

在判断传入的字符是不是数字时,最好用正则表达式来判断,这样比较准确。

typeof Number(char) === 'number'!isNaN(char)都不太合理:

  1. typeof Number(char) === 'number': 这部分判断使用了typeof操作符,它会将Number(char)的结果判定为'number'。然而,Number(char)在转换无法转换为有效数字的字符串时会返回NaN,而typeof NaN也是'number',因此这部分判断并不能准确地判断传入的字符串是否是一个有效的数字。
  2. !isNaN(char): 这部分判断使用了isNaN函数,它用于检查一个值是否为NaN。然而,isNaN函数在判断非数字类型的值时也会返回false,比如空字符串、布尔值、对象等。这也就意味着,如果传入的是非数字但却不是NaN的值,这部分判断同样会得出错误的结论。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Levenshtein Distance算法是一种常见的字符串相似度算法,也被称为编辑距离算法。其主要思想是通过计算两个字符串之间的编辑距离来确定它们的相似程度。 编辑距离指的是将一个字符串转换成另一个字符串所需的最少操作次数,其中每次操作可以是插入、删除或替换一个字符。例如,将字符串“kitten”转换字符串“sitting”需要进行3次操作,即将“k”替换为“s”,将“e”替换为“i”,将“n”替换为“g”。 Levenshtein Distance算法的实现一般使用动态规划的方法,通过填充一个二维矩阵来计算两个字符串之间的编辑距离。具体实现过程可以参考以下伪代码: ``` function LevenshteinDistance(s1, s2): m = length(s1) n = length(s2) d = new matrix(m+1, n+1) for i from 0 to m: d[i, 0] = i for j from 0 to n: d[0, j] = j for j from 1 to n: for i from 1 to m: if s1[i] == s2[j]: cost = 0 else: cost = 1 d[i, j] = min(d[i-1, j]+1, d[i, j-1]+1, d[i-1, j-1]+cost) return d[m, n] ``` 在以上代码中,变量s1和s2分别表示两个待比较的字符串,m和n分别表示它们的长度,矩阵d用于存储编辑距离的计算结果。首先,将矩阵d的第一行和第一列分别初始化为0到n和0到m的整数。然后,对于每个(i, j)位置,如果s1[i]等于s2[j],则将cost设为0,否则设为1。最后,根据递推公式d[i, j] = min(d[i-1, j]+1, d[i, j-1]+1, d[i-1, j-1]+cost)来填充矩阵d,并返回d[m, n]作为编辑距离的结果。 Levenshtein Distance算法的时间复杂度为O(m*n),其中m和n分别为两个字符串的长度。在实际应用中,该算法可用于拼写检查、数据去重等场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值