shell脚本提取网页上面的链接

最新推荐文章于 2021-07-11 17:15:27 发布

nicooqing

最新推荐文章于 2021-07-11 17:15:27 发布

阅读量3.9k

点赞数 1

文章标签： shell

本文链接：https://blog.csdn.net/F_qing/article/details/82894379

版权

方法一：

1.提取网页源码重定向到txt文件

wget http://www.hdu.edu.cn > index.txt

2.正则表达式提取链接

grep -o "\"http.*\"" index.txt > search.txt

\ 转义符号

\" 转义"

.匹配单个字符

.*匹配任意字符

正则表达式\"http.*\"

注：不能用^（行起始标记）和$（行尾标记）

方法二：

安装lynx：yum install lynx

lynx -dump http://www.hdu.edu.cn >page.txt

lynx命令的-dump选项将网页以ASCII字符的形式下载到文本文件中

这个命令会将所有的超链接（<a href="link">）作为文本输出的页脚列在References标题之下。这就省得我们在用正则表达式单独解析链接了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

nicooqing

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Linux中编写Shell脚本

谢公子的博客

10-08

16万+

目录 Shell Shell脚本的执行 Shell脚本编写规范 Shell 中的变量变量的算术运算双小括号 (()) 数值运算命令的用法 let 运算命令的用法 expr 命令的用法 br 命令的用法 $[]符号的运算示例 Shell脚本的条件测试几种条件测试语句文件测试操作符字符串测试操作符整数二元比较操作符逻辑操作符测试表达式 test 、...

shell抓取网页内容

qq_28626013的博客

12-22

5080

使用shell抓取网页内容最近需要下载网页中的所有pdf，做了一个shell脚来用来抓取网页所有的pdf链接。具体步骤如下准备抓取网页链接：https://www.nexperia.cn/products/automotive-qualified-products-aec-q100-q101.html 抓取内容：数据手册下所有PDF文件，例如BZX884S_SER 获取抓取内容由于抓取的内容是不是静态网页，而是请求返回，需要获取数据请求链接通过F12打开浏览器开发者模式

1 条评论您还未登录，请先登录后发表或查看评论

shell提取文档网址脚本_2018_lcf

cbuy888的博客

10-17

319

--1 -- 档中包含图片的行一般格式为： ![实验操作界面](https://doc.shiyanlou.com/document-uid13labid292timestamp1467702955677.png/wm) --2--我们需要提取的链接地址为： https://doc.shiyanlou.com/document-uid13labid292timestamp1467...

linux的shell版url爬虫

qq_41671415的博客

07-11

285

小制作，大佬勿喷，原理也就链式反应，有兴趣的可以在其基础上进行改版增强， #!/bin/bash echo "请注意此脚本是广度优先工作！！！" # egrep -o "https?://[a-zA-Z0-9\.+\/*]*" i=3 while (($i >= 0 )) do #url=https://www.zstack.io/ read -p "输入一个url和探测层数,空格隔开: " url deep read -p "输入要排除的网站：" except num=`echo $url

shell命令curl抓取网页内容-下载xls文件

为无为，事无事，味无味。

04-15

4664

通过curl命令抓取网页内容，关键点如下： 1.curl要模拟浏览器，最好是有个代理，因为很多站点都会搞个反爬虫什么的。 2.我的需求很简单，就是在国家外汇管理局上下载各种货币对美元的汇率。 http://www.safe.gov.cn/wps/portal/sy/tjsj_dmzsl 3.主要命令：curl，grep，awk，xls2txt，msql(LOAD DATA )。 cu

用shell脚本爬取网页信息

weixin_30386713的博客

07-05

1293

有个小需求，就是爬取一个小网站一些网页里的某些信息，url是带序号的类似的，不需要写真正的spider，网页内容也是差不多的需要取出网页中<h1></h1>中间的字符串，而且只要第一行，最后带序号写到文件里我并不是经常写shell的，只想快速达到目的 #!/bin/bash for ((i=2;i<=100;i=i+1)) do echo "###...

从html文件中提取超链接URL的shell脚本

weixin_34197488的博客

11-15

1232

sed-n'/<a /p'html.txt|sed's#<a $[^>]*$>#--SYN--\1--FIN--#g; s/<//g; s/>//g'|\ sed's/--SYN--/</g; s/--FIN--[^<]*</></g; s/[^<]*&lt...

linux shell 脚本攻略里用来下载链接图片的脚本，附上整本书脚本打包

04-22

在这个特定的案例中，`img_downloader.sh` 是一个用于批量下载网页中链接的图片的shell脚本，这在处理需要大量图片资源的项目时非常有用。下面我们将深入探讨这个脚本可能包含的知识点，并解释如何使用它。首先，`...

一个下载网页图片的shell脚本

09-15

### 下载网页图片的Shell脚本知识点解析 #### 一、Shell脚本基础概念 - **Shell**: Shell是用户与操作系统之间的接口程序，用于接收用户的命令并将其传递给内核执行。 - **Shell脚本**: 使用Shell语言编写的程序，...

shell脚本实现的网站日志分析统计（可以统计9种数据）

09-15

首先，Shell脚本是一种强大的命令行工具，它允许我们在Linux或Unix系统上执行一系列自动化任务，例如读取、处理和解析日志文件。在本例中，脚本会读取指定的日志路径(log_path)下的access.log.1文件，进行一系列统计...

shell版url链接爬虫--测试版

qq_41671415的博客

04-05

154

#!/bin/bash # egrep -o "https?://[a-zA-Z0-9\.+\/*]*" i=3 while (($i >= 0 )) do read -p "输入一个url和探测深度: " url deep num=`echo $url | egrep -o "https?://[a-zA-Z0-9\.+\/*]*"` re=`echo $?` #判断区 if (($re==1)) then echo -e "请输入正确url\n" else break #跳出 fi

shell小技巧（三十五）模拟爬虫获取页面中的文章链接

bigwood99的博客

04-03

454

以某博客https://blog.51cto.com/oldboy为目标进行抓取为了稳定数据源，先使用curl将抓取目标页面存于本地 curl -shttps://blog.51cto.com/oldboy -o oldboy.html 代码： grep -A 5 -E "^.*<a href.*class=\"time fl\"" oldboy.html 总结：基本...

如何使用PowerShell提取任何网页上的链接

culinxia2707的博客

09-09

1160

PowerShell 3 has a lot of new features, including some powerful new web-related features. They dramatically simplify automating the web, and today we are going to show you how you can extract every si...

【网络教程】shell命令/shell脚本访问url/echo命令的使用方法

XiaoqiangClub的博客

03-08

4898

文章目录shell脚本访问urlshell常用命令echo命令 shell脚本访问url 很多时候我们需要定时自动去访问一个脚本，当然我们可以直接使用crontab配合curl实现；但是有时候我们可能会需要·shell脚本`来实现，这边就直接给大家分享一个实例脚本，仅供参考 #!/bin/bash while [ true ]; do # 循环执行 /bin/sleep 5 curl "h...

shell 切割URL获取文件名

xdreamman的博客

08-29

2055

业务逻辑：请求URL 得到新的URL，然后wget 指定文件名，下载文件 url=http://baidu.com/clouddd_file/recoddrd/impddort/enddd2end/casdde_10/casdde_10.tar.gz # 规则 ${parameter//pattern/string} # \/ 表示反斜杠转义，把/替换为空 filename_list...

shell脚本读取每行文本内容url批量下载远程文件

李维山的博客

04-01

911

文本内容如下： shell脚本如下： #!/bin/bash for line in $(cat 1.txt) do $(wget -P /home/img $line) echo $line done

Shell 批量生成链接

weixin_38168173的博客

10-09

linux程序安装完执行总是要全路径去执行，每一个添加到PATH 又太麻烦，干脆将其生成链接到 ~/bin 目录下，在 /etc/profile 追加一句export PATH="$PATH:~/bin" ， #!/bin/bash #批量生成链接 <1058436713@qq.com># 使用 ./xxx.sh [-s] dir [default="~/bin...

shell 字符串截取

薛文旺

01-28

138

${url%%.tgz*}//从第一个字符.tgz开始，截取左边的字符串 ${url%_*} //最后第一个字符_开始，截取左边的字符串 ${url##*/} //从第一个/开始，截取右边的字符串

shell脚本 提取网页上面的链接

shell脚本提取网页上面的链接