【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）...

最新推荐文章于 2023-07-22 16:47:43 发布

andy76123

最新推荐文章于 2023-07-22 16:47:43 发布

阅读量172

点赞数

文章标签： python c# java

原文链接：http://www.cnblogs.com/cappuccino/p/3416094.html

版权

转自：http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html

摘要本文主要介绍了抓取网站，模拟登陆，抓取动态网页相关的逻辑，原理和如何实现。主要包括：

抓取网页，模拟登陆等背后的通用的逻辑和原理
以提取songtaste网页中标题为例，详解如何抓取网站并提取网页内容
以模拟登陆百度为例，详解如何模拟登陆网站
以抓取网易博客帖子中的最近读者信息为例，详解如何抓取动态网页中的内容
详解了在模拟登陆和抓取动态网页过程中，如何用对应的网页分析工具，如IE9的F12，Chrome的Ctrl+Shift+J，Firefox的Firebug，去分析出对应的逻辑
针对抓取网站，模拟登陆，抓取动态网页，全部给出了完整的可用的，多种语言的示例代码：Python，C#，Java，Go等

本文提供多种格式供：

在线阅读	HTML	HTMLs	PDF	CHM	TXT	RTF	WEBHELP
下载（7zip压缩包）	HTML	HTMLs	PDF	CHM	TXT	RTF	WEBHELP

HTML版本的在线地址为：http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html有任何意见，建议，提交bug等，都欢迎去讨论组发帖讨论：http://www.crifan.com/bbs/categories/web_scrape_emulate_login/

2013-09-22

修订历史
修订 1.1	2013-09-22	crl
把之前教程的地址整理过来添加新帖子的链接：模拟登陆百度的java版，go语言版

本文章遵从：署名-非商业性使用 2.5 中国大陆(CC BY-NC 2.5)

前言

1. 本文目的

1. 网站抓取，模拟登陆，抓取动态网页的通用逻辑 2. 如何抓取静态网页并提取特定内容 3. 如何模拟登陆网站

3.1. （多种语言实现）模拟登陆百度 3.2. （多种语言实现）模拟登陆gogole

4. 如何抓取动态网页并提取特定内容

4.1. 抓取动态网页示例：网易163博客的心情随笔FeelingCard

5. 抓取静态或动态网页和模拟登陆的注意事项和总结参考书目

前言

1. 本文目的

本文目的在于，如何从无到有的，了解抓取网站，模拟登陆，抓取动态网页方面的逻辑和具体实现。

第 1 章网站抓取，模拟登陆，抓取动态网页的通用逻辑

第 2 章如何抓取静态网页并提取特定内容

	相关旧帖
	【教程】抓取网并提取网页中所需要的信息之 Python版【教程】抓取网并提取网页中所需要的信息之 C#版

第 3 章如何模拟登陆网站

3.1. （多种语言实现）模拟登陆百度 3.2. （多种语言实现）模拟登陆gogole

下面，给出足够多的例子：

3.1. （多种语言实现）模拟登陆百度

先去用工具分析逻辑：【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程再去用代码实现，此处，目前已经实现了：

3.2. （多种语言实现）模拟登陆gogole

另外，也弄了个，模拟登陆google：【记录】模拟登陆google

第 4 章如何抓取动态网页并提取特定内容

4.1. 抓取动态网页示例：网易163博客的心情随笔FeelingCard

先去看看：

【教程】如何抓取动态网页内容

搞懂，抓取动态网页的逻辑。

再去看下面的例子：

4.1. 抓取动态网页示例：网易163博客的心情随笔FeelingCard

【记录】给BlogsToWordPress添加支持导出网易的心情随笔【教程】以抓取网易博客帖子中的最近读者信息为例，手把手教你如何抓取动态网页中的内容【记录】用Python解析网易163博客的心情随笔FeelingCard返回的DWR-REPLY数据

第 5 章抓取静态或动态网页和模拟登陆的注意事项和总结

	相关旧帖
	【总结】静态网页抓取，动态网页抓取，模拟登陆的注意事项和心得

参考书目

[1] 如何用Python，C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站

转载于:https://www.cnblogs.com/cappuccino/p/3416094.html

andy76123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）...

转自：http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html摘要本文主要介绍了抓取网站，模拟登陆，抓取动态网页相关的逻辑，原理和如何实现。主要包括：抓取网页，模拟登陆等背后的通用的逻辑和原理...
复制链接

扫一扫

【转】详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）...

前言

1. 本文目的

第 1 章 网站抓取，模拟登陆，抓取动态网页的通用逻辑

第 2 章 如何抓取静态网页并提取特定内容

第 3 章 如何模拟登陆网站

3.1. （多种语言实现）模拟登陆百度

3.2. （多种语言实现）模拟登陆gogole

第 4 章 如何抓取动态网页并提取特定内容

4.1. 抓取动态网页示例：网易163博客的心情随笔FeelingCard

第 5 章 抓取静态或动态网页和模拟登陆的注意事项和总结

参考书目

第 1 章网站抓取，模拟登陆，抓取动态网页的通用逻辑

第 2 章如何抓取静态网页并提取特定内容

第 3 章如何模拟登陆网站

第 4 章如何抓取动态网页并提取特定内容

第 5 章抓取静态或动态网页和模拟登陆的注意事项和总结