搜索之路- c# 爬虫技术

最新推荐文章于 2024-05-03 22:03:36 发布

bestdowt1314

最新推荐文章于 2024-05-03 22:03:36 发布

阅读量616

点赞数

分类专栏：搜索技术学习笔记技术资料积累文章标签： c# string url stream windows 浏览器

技术资料积累同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

搜索技术学习笔记

10 篇文章 0 订阅

订阅专栏

爬虫，又称蜘蛛，是从别的网站抓取资源的一种方法， C# .NET 使用爬虫的方法如下：

protected string GetPageHtml (string url )

{

string pageinfo ;

try

{

WebRequest myreq = WebRequest .Create (url );

WebResponse myrep = myreq .GetResponse ();

StreamReader reader = new StreamReader (myrep .GetResponseStream (), Encoding .GetEncoding (“gb2312″ ));

pageinfo = reader .ReadToEnd ();

}

catch

{

pageinfo = “” ;

}

return pageinfo ;

}

按上述方法就可以在程序中获取某URL 的页面源文件。

但是有些网站屏蔽了爬虫，那就需要模拟浏览器获取的方法来进行，具体代码如下：

　　protected string GetPageHtml (string url )

{

string pageinfo ;

try

{

HttpWebRequest myReq = (HttpWebRequest )HttpWebRequest .Create (url );

myReq .Accept = “image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, application/msword, */*” ;

myReq .UserAgent = “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727)” ;

HttpWebResponse myRep = (HttpWebResponse )myReq .GetResponse ();

Stream myStream = myRep .GetResponseStream ();

StreamReader sr = new StreamReader (myStream , Encoding .Default );

pageinfo = sr .ReadToEnd ().ToString ();

}

catch

{

pageinfo = “” ;

}

return pageinfo ;

}

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
搜索之路- c# 爬虫技术

爬虫，又称蜘蛛，是从别的网站抓取资源的一种方法，C#.NET使用爬虫的方法如下：protected string GetPageHtml(string url) { string pageinfo; try {
复制链接

扫一扫

专栏目录

bestdowt1314 CSDN认证博客专家 CSDN认证企业博客

码龄18年

93: 原创

23万+: 周排名

101万+: 总排名

21万+: 访问

: 等级

3848: 积分

507: 粉丝

12: 获赞

57: 评论

17: 收藏

私信

关注

热门文章

分类专栏

最新评论

Mac 如何将默认执行的Python2改为Pyhton3.7
CURD工程师: 这么做确实起作用了，但是关闭终端，再次打开查看，就还是显示2.7 只是临时有效，请问这是什么原因，或者您遇到过这样的情况吗？
Mac为Python3.7 安装 pip3
一只喋喋不休的菜鸡: 这么简单的吗？虽然我用的不是这个方法，但是这个方法比我查的其他的简单好多
什么情况下用多线程编程
suizouwuya 回复 haibo_rich: 在这个环境中，如果以人为参考主要对象，是说的人的单线程还是多线程，也就是一个人还是两个人；而你说的煮饭和炒菜是另外一个模型环境，那个环境针对于电器，是对于电的利用来说的，CPU和电在这里概念不同，因为CPU的最大功率是固定的，而电的最大输出功率完全满足电饭煲和电磁炉的功用，也就是单一运行电饭煲或者电磁炉不能够最高效利用电能，电饭煲线程或者电磁炉线程都不能充分利用CPU资源。如果能够把电饭煲改造为家用电最大功率，那就是单线程了，不过这样太不安全，而且也没有这种电饭煲发明出来。重新回到正题，在题目里面，一直是以人为中心的，也就是人是这里面的CPU。他在用电饭煲煮饭的时候，不需要一直盯着，所以造成资源闲置，那么这个线程还可以去做点别的事，比如炒菜，只要偶尔查看一下饭有没有煮熟就好了，此时煮饭工作和炒菜工作充分利用了人的资源，但是炒菜工作的发起者是人，煮饭工作的发起人也是人，所以这里只有人这一个单线程。
python 编写获取阿里巴巴行业分类数据代码
chinabowens: 我需要一份[email protected],如果是目前最新的,我可以少许有偿使用.
VS2010 切换到设计界面无响应
hjq5456 回复微wx笑: 后来有解决了吗？我也一直这样

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。