curl+awk抓取并分析网页

最新推荐文章于 2023-07-04 20:04:09 发布

nevasun

最新推荐文章于 2023-07-04 20:04:09 发布

阅读量5.6k

点赞数

分类专栏： Linux系统管理编程语言C/Python 网络技术·移动通信文章标签： access file blog python date 脚本

本文链接：https://blog.csdn.net/nevasun/article/details/7661879

版权

这篇博客介绍了如何使用curl替代Python来抓取CSDN个人博客，特别是当Python方式不再适用时。文章提到了curl的基本用法，如--connect-timeout和-o选项，并给出了一个名为account.sh的shell脚本示例。

摘要由CSDN通过智能技术生成

在之前有一篇文章介绍如何通过python抓取网页，见Python抓取中文网页，但是不久之后就发现这种方式对于CSDN的个人博客的抓取行不通了快哭了。早就听说了curl的强大，今天就拿curl来试一试。

curl的功能很强大，这里有一个curl使用简介，大家可以参考，其他问题请自行百度google之。这里我们只用到了最基本的--connect-timeout 和-o，以抓取本博客为例：

curl -s --connect-timeout 10 -o blog "http://blog.csdn.net/nevasun"

OK，在当前目录下就会有一个blog的文件，我们以纯文本文件的方式打开，就会发现有如下的信息：

<li>访问：<span>10598次</span></li>
<li>积分：<span>610分</span></li>
<li>排名：<span>第13159名</span></li>

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

nevasun

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

使用curl递归下载软件脚本分享

09-15

- **CURL_URLS函数**：该函数使用`curl`工具抓取网页内容，然后利用`awk`提取所有链接，并通过正则表达式过滤掉不符合条件的链接（如相对路径、空链接或外部链接），最后将有效链接存储到`Urls`变量中。 - **URL_...

linux 的curl grep awk 联合查询----小练习

甜芯玉米

03-02

2259

前置：理解curl grep awk的基本用法练习题目：用grep awk 去查询公网IP，有网址http://ip.tool.chinaz.com/ <div class="IpMainWrap-right fr" id="rightinfo"> <dl class="IpMRig-tit"> <dt&...

参与评论您还未登录，请先登录后发表或查看评论

awk基本用法、处理条件、awk应用案例、监控脚本编写

热门推荐

cws1214的专栏

03-24

2万+

先把文件列表存在filename文件中先 awk '{system("rm $0")}' filename -------WRONG 因为对于 system来说 $0 不再是某行全部的内容，而是 “sh” ，上面的命令相当于执行“ sh rm sh” 然后 awk '{cmd="rm "$0;system(cmd)}' filename ----OK 下

tetrio：tetrio统计数据抓取

02-14

例如，`curl`命令可以用来从网页上下载数据，这对于抓取tetrio平台上的公开可用数据非常有用。如果tetrio提供API接口，我们可以通过`curl`加上适当的参数（如 `-X GET` 或 `-X POST`）来发送HTTP请求，获取JSON或...

curl--help:包含curl输出HTML页面--help允许进行过滤

05-26

对于HTML标签，`curl` 本身并不直接处理HTML标签，但通过管道操作符（`|`）可以与其他命令（如 `grep`, `sed`, `awk` 等）结合，对HTML内容进行过滤和处理。例如，我们可以使用 `grep` 来查找HTML页面中的特定字符串...

搜索引擎关键字分析

04-17

例如，可以使用`curl`命令抓取网页内容，`grep`或`awk`进行文本筛选，然后通过正则表达式匹配关键字。此外，`sed`用于文本替换和格式化，`sort`和`uniq`则用于数据去重和排序。这些命令组合起来，能构建出一个强大的...

Data Science at the Command Line Janssens 2014 pdf

10-11

- **网站抓取**：通过命令行工具如`curl`或`wget`从互联网上抓取数据。 - **API交互**：利用`curl`或类似工具调用API接口，获取数据。 - **数据库操作**：通过命令行工具如`mysql`或`sqlite3`查询数据库中的数据。 -...

Linux 抓取网页实例（shell+awk）

yuanlanjun

06-05

977

上一篇博客讲了Linux抓取网页的方式，有curl和wget两种方式，这篇将重点讲Linux抓取网页的实例——抓取google play全球12国的游戏TOP排名要抓取google play游戏排名网页，首先需要分析网页的特点和规律： 1、google play游戏排名网页，是一个就“总-分”形式，即一页网址显示若干排名（如24个），有若干个这样的网页组成全部游戏的总排名 2、每页网址中，点击每...

awk grep sed sort curl Linux常用的终端命令总结

whichard的博客

03-04

843

grep查找行 sort排序 sed编辑 awk处理 ps -ef|grep java 查看所有包含关键字java的进程 ps aux|grep java 查看所有包含关键字java的进程，显示详细的运行信息 ps –ef|grep tomcat 查看所有有关tomcat的进程 ps aux 查看所有进程, 显示详细运行信息 kill -9 19979 终止线程号位19979的进程 ls -al ...

curl 出现一些意料外的状态

u013176681的专栏

08-05

2041

我想用curl采集nginx的状态信息，然后用awk取值正常curl情况是这样的： [root@localhost ~]# curl http://www.xxx.com/NginxStatus Active connections: 16392 server accepts handled requests 9711388219 9711388219 225228

curl post

zhangxinyu0827的博客

10-23

296

host=`zkname **.**.com | awk -F $'\t' '{print $1":"$2}'` curl --request POST \ --url http://$host/pools/pool/*** \ --header '***' \ --form **=** \

awk使用shell变量，shell获取awk中的变量值

05-29

1825

awk使用shell变量，shell获取awk中的变量值 2012-04-13 09:36:28| 分类： LINUX |字号订阅原文：http://renyongjie668.blog.163.com/blog/static/16005312011829102025222/ 我认为在linux下awk是个好东东啊，处理一些文本文件会非常方便。而在Linu

linux awk数组操作详细介绍

weixin_30885111的博客

10-08

321

用awk进行文本处理，少不了就是它的数组处理。那么awk数组有那些特点，一般常见运算又会怎么样呢。我们先看下下面的一些介绍，结合例子我们会讲解下它的不同之处。在 awk 中数组叫做关联数组(associative arrays)，因为下标记可以是数也可以是串。awk 中的数组不必提前声明，也不必声明大小。数组元素用 0 或空串来初始化，这根据上下文而定。例如：一、定义方法 1：可以用数值...

shell执行curl_执行批量curl请求脚本注意事项

weixin_28757113的博客

02-04

2714

通过shell生成curl请求然后批量执行如下所示awk -F, 'NR>1{print $(NF-1)}' orders | awk '{print "curl http://localhost:8080/orders?orderSeq="$0"&token=a059a61d7e9211e6a22b4437e6d0648e"}'curl http://localhost:808...

shell字符截取之awk命令

catyuan的博客

06-18

6874

1. 命令格式 awk '条件1{动作1} 条件2{动作2}...' 文件名条件一般使用关系表达式作为条件 x>6：判断x是否大于6 x>=6：是否大于等于6 动作格式化输出流程控制语句（for循环、if语句） 2. 练习： print与printf [root@catyuan ~]# vim student id name age sex ...

Curl读取网页数据

Firstlijinke的博客

05-28

2159

1. 创建一个curl.cpp 文件代码如下 #include <curl/curl.h> #include <iostream> using namespace std; int main() { CURL *curl = curl_easy_init(); // 初始化 if (!curl) { cout << "curl is fail" << endl; } curl_easy_setopt(curl,CURLOPT_URL,

Linux环境下使用curl和wget抓取网页教程

在实际操作中，可以使用curl和wget通过url网址或proxy代理来抓取网页，并通过设置参数进行重试和延迟，以应对网络不稳定的情况。详细知识点： 1. **curl命令**： - curl是一个强大的命令行工具，用于传输数据，...