批量下载网页上的链接然后合并、筛选、编辑文本内容

1. 打开网页,按F12打开开发工具,点击源代码,查看 网页的源代码,并将其复制到一个文档中

2.保留需要批量下载的链接行

3.对其进行修饰

4. 去除多每一行多余的文字

echo "123.456.AABBCCDDEEFF(GGHHII)" > test.txt
echo " 678.890.BBCAACDDFFEE(GGIIKKHH)" >> test.txt  #这一行最前面有空格!!
# 以下位删除普通字符
sed 's/.*AA//g' test.txt > B.txt   # 删除test.txt中,AA字符串之前的内容,一直到行首,保存到B.txt
sed 's/FF.*$//g' test.txt > B.txt  # 删除test.txt中,FF字符串之后的内容,一直到行尾,保存到B.txt
#以下为删除特殊字符,需要用  \ 进行字符的转义!!
sed 's/.*\.//g' test.txt > B.txt   # 删除test.txt中,.字符串之前的内容,一直到行首,保存到B.txt
sed 's/\..*$//g' test.txt > B.txt  # 删除test.txt中,.字符串之后的内容,一直到行尾,保存到B.txt

5. wget 批量下载

wget -i url.txt

6. 合并下载下来的html文档

cat *.html >> name.txt

7. 提取具有指定标志符号的内容

grep br name.txt > ok.txt

8. 替换不必要的文字

vim ok.txt

:1,$s /AAA/BBB/g            将AAA 替换成BBB

sed -i 's/AAA/BBB/g' ok.txt

如果要替换的字符串中间有空格,要用转义符\紧跟空格,再接后一个字符

9. 在行尾加入字符

在行尾加入 <br>符号
sed 's/$/&\<br\>/g' A.txt > B.txt

10. 复制前 100行到文件b中

head -n 100000 A.txt > B.txt

11.删除 2-50行,然后复制到B

# 先查看多少行
wc -l A.txt
sed '2,50d' A.txt > B.txt

# 可以直接在A中删除
sed -i '2,50d' A.txt

12. 删除含有特定字符的行

sed -i '/abcd/d' A.txt

#删除空行
sed -i '/^$/d' A.txt

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值