L1-101 别再来这么多猫娘了!(15)
题目要求
以 GPT 技术为核心的人工智能系统出现后迅速引领了行业的变革,不仅用于大量的语言工作(如邮件编写或文章生成等工作),还被应用在一些较特殊的领域——例如去年就有同学尝试使用 ChatGPT 作弊并被当场逮捕(全校被取消成绩)。相信聪明的你一定不会犯一样的错误!
言归正传,对于 GPT 类的 AI,一个使用方式受到不少年轻用户的欢迎——将 AI 变成猫娘:
部分公司使用 AI 进行网络营销,网友同样乐于使用“变猫娘”的方式进行反击。注意:图中内容与题目无关,如无法看到图片不影响解题。
当然,由于训练数据里并不区分道德或伦理倾向,因此如果不加审查,AI 会生成大量的、不一定符合社会公序良俗的内容。尽管关于这个问题仍有争论,但至少在比赛中,我们还是期望 AI 能用于对人类更有帮助的方向上,少来一点猫娘。
因此你的工作是实现一个审查内容的代码,用于对 AI 生成的内容的初步审定。更具体地说,你会得到一段由大小写字母、数字、空格及 ASCII 码范围内的标点符号的文字,以及若干个违禁词以及警告阈值,你需要首先检查内容里有多少违禁词,如果少于阈值个,则简单地将违禁词替换为
<censored>
;如果大于等于阈值个,则直接输出一段警告并输出有几个违禁词。
输入格式
输入第一行是一个正整数 N (1≤N≤100),表示违禁词的数量。接下来的 N 行,每行一个长度不超过 10 的、只包含大小写字母、数字及 ASCII 码范围内的标点符号的单词,表示应当屏蔽的违禁词。
然后的一行是一个非负整数 k (0≤k≤100),表示违禁词的阈值。
最后是一行不超过 5000 个字符的字符串,表示需要检查的文字。
从左到右处理文本,违禁词则按照输入顺序依次处理;对于有重叠的情况,无论计数还是替换,查找完成后从违禁词末尾继续处理。
输出格式
如果违禁词数量小于阈值,则输出替换后的文本;否则先输出一行一个数字,表示违禁词的数量,然后输出
He Xie Ni Quan Jia!
。
分析
本题要求按照违禁词的输入顺序,对待检测文本按照从左到右顺序查找并替换。
我的思路如下:
- 用 vector<string> 存储违禁词,确保按照输入顺序处理。
- 用for(auto& element : container)语句遍历违禁词容器,确保按照输入顺序处理每个违禁词。然后内嵌套一个while循环通过 find() 函数从左到右查找对应违禁词。
- while循环中需要实现对违禁词个数计数,用count来计数,同时需要对查找到的违禁词进行替换成题给字符串"<censored>",并更新下一次查找的起始位置,避免重复查找已替换的部分
- 以上是我整个代码核心,然而程序运行后提示运行超时,时间复杂度过高,后来又尝试同时查找所给违禁词,并且替换,但是发现当先检测到后面的违禁词时,运行结果与题给不符(代码和测试结果如下)。
size_t len = sentence.length();
//时间复杂度:O(L*N)=O(NL):只需要单次遍历字符串L,对每个位置检查所有违禁词
//N=100,L=5000时,约操作50w次
//无回溯,每个字符仅处理一次
while (pos < len) {
bool replaced = false;
// 检查当前位置开始的子串是否是任一违禁词
for (const auto& word : forbiddenWords) {
if (sentence.compare(pos, word.length(), word) == 0) {
count++;
result += "<censored>";
pos += word.length();
replaced = true;
break;
}
}
//直接拼接结果字符串,避免频繁内存移动
if (!replaced) {
result += sentence[pos++];
}
}
- 经过查询发现可以先用简单的特殊字符串替换违禁词,再将特殊字符替换为题给字符串"<censored>" 。这样既可以满足从左到右,依违禁词次序查找的要求,也可以满足题目的运行时间需求,代码如下:
代码
#include <iostream>
#include <string>
#include <vector>
using namespace std;
int main(){
int N,k; //违禁词个数N,违禁词阈值k
cin >> N;
string sentence; //待检测文字
vector<string> forbiddenWords(N); //存储违禁词,容量为N
for(int i = 0; i < N; i++){
cin >> forbiddenWords[i]; //读取违禁词
}
cin >> k; //输入阈值
cin.ignore(); //忽略换行符
getline(cin,sentence); //读取待检测字符串
string result = sentence;
int count = 0;//计违禁词个数
//从左到右,依次检查sentence中的违禁词,并替换为其他字符串
for(const auto& word : forbiddenWords){
size_t index = 0; //初始化查询位置
//在字符串中查找违禁词
while((index = result.find(word,index)) != string::npos){
//如果查到违禁词,则count加1,并且替换为其他字符串,同时更新索引
count++;
result.replace(index,word.length(),"*_*");
index += 3;
}
}
//如果违禁词个数少于阈值,则输出违禁词个数以及替换结果
if(count < k){
size_t pos = 0;
string str = "*_*";
while((pos = result.find(str,pos)) != string::npos){
//将*_*替换为<censored>
result.replace(pos,str.length(),"<censored>");
//更新查询位置
pos += 10;
}
cout << result << endl;
}
//如果违禁词个数大于等于阈值,则直接输出违禁词个数以及警告
else{
cout << count << endl;
cout << "He Xie Ni Quan Jia!" << endl;
}
return 0;
}