对于这个问题,首先我们先把这10000个网页放到一个文件夹下:
1.打开文件夹,遍历html文件
2.在每个html文件中的操作为:用正则表达式读取电话号码并写入list
3.遍历结束关闭文件夹,接下来进行去重
4.利用set的无序且无重复数据的性质去重
对于这个问题,首先我们先把这10000个网页放到一个文件夹下:
1.打开文件夹,遍历html文件
2.在每个html文件中的操作为:用正则表达式读取电话号码并写入list
3.遍历结束关闭文件夹,接下来进行去重
4.利用set的无序且无重复数据的性质去重