javascript 正则的一些使用场景——敏感词过滤

写一个最简单的正则

// var re=new RegExp("a");//js风格
var re=/a/;//perl风格,古老语言现在没人用了
// var re2=new RegExp("o");
var re2=/o/;
var str="hello world!";
console.log(str.search(re));//-1
console.log(str.search(re2));//4

用i写一个忽略大小写的正则

// var re=new RegExp("h","i");//用i忽略大小写i===ignore
var re=/h/i;
var str="Hello world!";
console.log(str.search(re));//0,上面忽略h大小写,可以找到第0个元素

像上面这种找个o找个h,不用正则也一样简单。正则不是必须的,任何东西我们都可以不用正则用其他方式实现。
下面我们做一些利用正则可以更简单的实现的功能。

正则中的转义d寻找第一个出现的数字

// 正则中的转义  \d 代表数字
var str="abc 55 fgdf56 56";
var re=/\d/;
console.log(str.search(re));//索引4 数字5出现在索引4的位置

search只能找到字母出现的索引位置。match把所有匹配的东西,全部提取出来

用g写一个获取全部符合要求的正则,利用match把所有匹配的内容展示出来

var str="asdf 66 5649 sdf546";
// 找到第一个数字
var re=/\d/;
console.log(str.match(re));//["6", index: 5, input: "asdf 66 5649 sdf546", groups: undefined]
// g找到全部的数字g===global代表找到全部
var re2=/\d/g;//一个\d表示要一个数字
console.log(str.match(re2));//["6", "6", "5", "6", "4", "9", "5", "4", "6"]

用+标识获取若干个,下面例子中是若干个数字

+量词,代表若干(多少都可以)

// +量词,代表若干(多少都可以)
var str="asdf 66 5649 sdf546";
var re3=/\d+/g;//一个\d表示要一个数字,加上+代表要若干数字
console.log(str.match(re3));//["66", "5649", "546"]

敏感词过滤

<!DOCTYPE html>
<html>
<head>
  <title>敏感词过滤</title>
</head>
<body>
  <script type="text/javascript">
    window.onload=function(){
      var oTxt1=document.getElementById("txt1");
      var oTxt2=document.getElementById("txt2");
      var oBtn=document.getElementById("btn1");
      oBtn.onclick=function(){
        var re=/北京|百度|淘宝/g;//过滤北京、百度、淘宝为* |代表或 注意加g如果不加g只能替换掉一个
        oTxt2.value=oTxt1.value.replace(re,"**");//如果想把敏感词去掉直接把**换成空格
      }
    }
  </script>
</body>
  <textarea id="txt1" rows="8" cols="80"></textarea><br>
  <input id="btn1" type="button" value="过滤"><br>
  <textarea id="txt2" rows="8" cols="80"></textarea>
</html>

.代表任意字符

var str="asdf 66 5649 sdf546 +-*/.";
var re=/./g;
console.log(str.match(re));// ["a", "s", "d", "f", " ", "6", "6", " ", "5", "6", "4", "9", " ", "s", "d", "f", "5", "4", "6", " ", "+", "-", "*", "/", "."]

元字符或者叫方括号[]

[]代表或里面内容任选一个都行。

1、任意字符
[abc]pc
代表apc bpc cpc都符合要求,如果写成其他形式就不符合要求。

var str="apc bpc cpc dpc epc fpc";
var re=/[abc]pc/g;//g代表全部符合要求的
console.log(str.match(re));//["apc", "bpc", "cpc"]

2、范围

// 找出a-z的字母和0-9的数字
var str="asdf 66 5649 sdf546";
var re2=/[a-z]/g;
console.log(str.match(re2));//["a", "s", "d", "f", "s", "d", "f"]
var re=/[0-9]/g;//找出所有0-9的数字
console.log(str.match(re));//["6", "6", "5", "6", "4", "9", "5", "4", "6"]

3、排除

// 排除a-z
var str="asdf 66 5649 sdf546 +-*/.";
var re=/[^a-z]/g;
console.log(str.match(re));//[" ", "6", "6", " ", "5", "6", "4", "9", " ", "5", "4", "6", " ", "+", "-", "*", "/", "."]
// 排除a-z和0-9
var str="asdf 66 5649 sdf546 +-*/.";
var re=/[^a-z0-9]/g;
console.log(str.match(re));//[" ", " ", " ", " ", "+", "-", "*", "/", "."]

像小说网站,我们不可能一部一部小说录进去,我们把别人网站的小说扒过来。
一般采集的小说都会包含html标签,这时候我们就需要把小说变成纯文本的。所以我们就需要写一个过滤html标签的方法。

过滤html标签的、模拟采集器处理成文本

<!DOCTYPE html>
<html>
  <head>
    <meta charset="utf-8" />
    <title>过滤html标签模拟采集器处理成文本</title>
    <script>
      window.onload=function(){
        var oTxt1=document.getElementById("txt1");
        var oTxt2=document.getElementById("txt2");
        var oBtn=document.getElementById("btn1");
        oBtn.onclick=function(){
          var re=/<[^<>]+>/g;//代表尖括号中除了<>两个字符的所有字符
          oTxt2.value=oTxt1.value.replace(re,"");//把html标签替换成空
        }
      }
    </script>
  </head>
  <body>
    <textarea id="txt1" cols="80" rows="10"></textarea><br>
    <input id="btn1" type="button" value="转换"><br>
    <textarea id="txt2" cols="80" rows="10"></textarea>
  </body>
</html>

正则中的转义

d 代表数字。就是[0-9]
w 代表英文、数字、下划线。就是[a-z0-9_]
s 代表空白字符,包括空格、tab等不可打印的字符
D 代表除了0-9意外的东西。就是1
W 代表除了a-z,0-9和下划线意外的东西。就是2
S 代表非空白字符。
. 点代表任意字符,在正则里劲量不要用。

量词——代表个数

  • {n} 代表正好出现n次——写一个正则标识8位的固定电话号码/[1-9]d{7}/ ——第一位1-9后面7位是数字。
  • {n,m} 代表最少出现n次,最多出现m次——比如写个qq号(5-11位)——

/[1-9]d{4,10}/ 第一位1-9,后面是4位到10位的数字

  • {n,} 代表最少n次最多不限。
  • +==={1,}标识最少出现一次,最多不限
  • ?==={0,1} 代表最少0次最多1次——固定电话的区号可以出现也可以不出现——/(0d{2-3}-)?[1-9]d{7}(-d{1,5})?/代表第一位是0然后后面是2到3位数字,然后书面是-,?标识前面可有可无,后面部分代表分机号。
  • *==={0,} 代表最少0个最多不限,可以没有也可以有很多位。不常用。

  1. 0-9
  2. a-z0-9_
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值