c语言裁取网页字符串,C语言获取网页源代码的学习所得

研究了一天这个玩意感觉挺有意思的。

刚开始是什么都不懂,现在写出来一段代码感觉略微有点意思了。

下面我分享一下学习过程和自己的理解。

整体过程大概就是如下情况:

先搜了一下别人的写这个东西的代码。

研究了一下代码中一些难理解的东西。慢慢就写出来了。

简单分析:

创建一个socket套接字连接主机

发送GET报文头字符串

接收

存放

准备工作:

connect()和服务器建立连接

send()  recv() 都是在利用套接字

用户提供一个网址,我们分析网址。

网址中包含的信息 有些是要填入sockaddr地址信息中 ,有些是要填入GET报头文

我们能得知信息有 主机名 资源路径 端口

例如一个  www.baidu.com/1.html   主机名www.baidu.com  资源路径 /1.html 端口没有 就 默认 80

建立连接 connect()函数搞定

参数中需要socket 和 sockaddr  前者就是套接字,后者是一个套接字地址结构

可以从sockaddr_in 强制转化过来 这个是另一种套接字地址结构体

需要提供 端口和 ip地址

端口    我们分析网址就能得到

ip地址 是用gethostbyname()这个函数搞定

函数名就挺形象的 通过主机名字获得host信息

意思就是 从 www.baidu.com 主机名 获得host信息

然后我们从信息里面把ip地址提取出来

GET报文头 需要主机名 资源路径  这两样网址中都提供了

发送   send()这个函数搞定

接收   recv()这个函数搞定

细分逻辑:

主要是学习这些函数以及结构的过程,和一些简单的逻辑组织。

分析网址 这个都在string.h

从host结构中获得ip地址填入套接字地址结构  这个查阅一下gethostbyname()和sockaddr以及sockaddr_in

连接connect()

存放GET报文头,把报文头用字符串函数组建起来,放在数组或者其他。。

发送send()

如果你发送的GET报文头得到了回应,目标就会传送你要的信息回来

接收recv()

信息可能很多,可能不能一次性接收完,分多次。用memcpy()和malloc()以及realloc()

memcpy()  copy字节数到目标   malloc()声明一定大小的内存区域   realloc()改变内存区域大小

什么时候接收完 如果套接字中有接收的内容就一直接收。没有就等待,直到超时,然后返回0.

这个超时时间限定是可以设置的。setsockopt()这个函数。可以设置接收和发送

int nNetTimeout = 5000;

setsockopt(sock, SOL_SOCKET, SO_RCVTIMEO, (char *)&nNetTimeout, sizeof(int));

遗留问题的思考:对于接收到数据处理。编码问题。我觉得套接字中传输的是数据,不是字符串。

正文这个我觉得倒是好理解,有人用utf8写了一个html网页文件保存在服务器,我们所获取的正文应该是这个用utf8编码写的数据 (我猜的)

但是接收到的报文头是什么编码呢,我们用什么简单的方法把它们分离,没有去研究。。有机会再看看

Java 网络爬虫获取网页源代码原理及实现

Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...

php查看网页源代码的方法

这篇文章主要介绍了php查看网页源代码的方法,涉及php读取网页文件的技巧,具有一定参考借鉴价值,需要的朋友可以参考下     本文实例讲述了php查看网页源代码的方法.分享给大家供大家参考.具体实现 ...

c#利用WebClient和WebRequest获取网页源代码的比较

前几天举例分析了用asp+xmlhttp获取网页源代码的方法,但c#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现. WebClient类获取 ...

delphi 获取网页源代码

//获取网页源代码 var   s: string; begin   s := WebBrowser1.OleObject.document.body.innerHTML; //body内的所有代码 ...

JS远程获取网页源代码的例子

js代码获取网页源代码. 代码: html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &lt ...

如何在ios手机端的Safari浏览器 中“查看网页源代码”

在这里给大家分享一个很简单的用苹果手机无需越狱就可以查看网页源代码的方法,不过这个方法只用于苹果手机自带的Safari浏览器 随便添加一个safari 书签 (用于一会改为查看源码功能书签)进入书签 ...

c#利用WebClient和WebRequest获取网页源代码

C#中一般是可以利用WebClient类和WebRequest类获取网页源代码.下面分别说明这两种方法的实现.   WebClient类获取网页源代码   WebClient类   WebClient ...

c#利用HttpWebRequest获取网页源代码

c#利用HttpWebRequest获取网页源代码,搞了好几天终于解决了,直接获取网站编码进行数据读取,再也不用担心乱码了! 命名空间:Using System.Net private static ...

C#用正则表达式 获取网页源代码标签的属性或值

1.有url获取到网页源代码: using System.Web; using System.IO; using System.Net; private void GetHtmlinfo(string ...

随机推荐

Android通过Http连接MySQL 实现登陆/注册(数据库+服务器+客户端)

写在最前: 在实际开发中,相信每个项目都会有用户登陆注册功能,这个实现的方法很多,下面是我实现的方法,供大家交流. 新人发帖,万分紧张,怎么样才能装作一副经常发帖的样子不被别人看出来呢-,- ? 好了 ...

Hadoop等软件常见运行问题及解决办法

Hadoop常见问题及解决办法  1.问题:java.io.IOException: Could not locate executable null\bin\winutils.exe in the ...

终于搞定office 2013中文双引号无法匹配问题啦!!!

设计>>字体>>自定义字体>>所有字体改为宋体>>保存>>点击字体确认当前字体是自己刚新建的>>点击旁边设为默认值>&gt ...

PartialViewResult不鸟_ViewStart.cshtml

概述 在ASP.NET MVC中,对于Action中得到的ActionResult如果是一个ViewResult对象,那么在进行View呈现时,则会先执行_ViewStart.cshtml,然后再去执 ...

C# 迪杰斯特拉(Dijkstra)算法

Dijkstra(迪杰斯特拉)算法是典型的最短路径路由算法,用于计算一个节点到其他所有节点的最短路径.主要特点是以起始点为中心向外层层扩展,直到扩展到终点为止. 其基本思想是,设置顶点集合S并不断地作 ...

Oracle expdp/impdp导出导入命令及数据库备份(转)

使用EXPDP和IMPDP时应该注意的事项: EXP和IMP是客户端工具程序,它们既可以在客户端使用,也可以在服务端使用. EXPDP和IMPDP是服务端的工具程序,他们只能在ORACLE服务端使用, ...

Scala学习之延迟绑定

package com.swust.example object TraitDemo2 extends App{ //抽象类 abstract class Writer { def writeMess ...

Android studio 开发在真机测试

真机测试 首先按照这设置android studio:   http://jingyan.baidu.com/article/fea4511a75d627f7ba912540.html 2.打开and ...

第1章 Lua基础

1.1 全局变量 全局变量不需要声明,给一个变量赋值后即创建了这个全局变量,访问一个没有初始化的全局变量也不会出错,只不过得到的结果是:nil. 如果你想删除一个全局变量,只需要将变量负值为 nil ...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值