网页抓取
zyh_1988
这个作者很懒,什么都没留下…
展开
-
另类新浪微博基本数据采集方法(值得深思)
0x00 前言有同学评论说之前绕过新浪访客系统的方法不能用了,我测试了一下,确实不能用了。原因很简单,新浪现在强制登录,没有cookie就是不行,即便是搜索引擎的爬虫也不行。现在用谷歌搜索出来的结果是这个样子的现在的和之前的对比一下以前的百度同样也被ban了呵呵快照里同样也是空的那么这是不是意味着我们即使想采集一些简单的信息(转载 2016-05-12 14:31:53 · 3379 阅读 · 1 评论 -
NET(C#):使用HttpWebRequest头中的Range下载文件片段
转自:http://www.mgenware.com/blog/?p=220HTTP请求包头信息中有一个Range属性可以指定索取部分HTTP请求的文件。在.NET中则通过HttpWebRequest.AddRange方法来定义数据的范围。当添加了Range属性的HTTP请求发送后,如果服务器支持该请求,也就是说支持部分数据提取(也是我们常说到的支持断点续传的下载,所谓断点续传转载 2016-06-13 10:59:28 · 2717 阅读 · 0 评论 -
解决The server committed a protocol violation. Section=ResponseStatusLine 的方法
编写了一个程序,用于抓取网页上的一些信息,原来运行的很正常,某一天发生了错误HttpWebResponse.GetResponse() 抛出以下异常:The server committed a protocol violation. Section=ResponseStatusLine 在网上查了好久,发现很多人遇到了这个问题这个是因为微软没有容忍不符合R转载 2016-07-18 13:28:16 · 2491 阅读 · 0 评论 -
网站常见的反爬虫和应对方法 + [评论]
在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活 资本青睐创业机会多》里,我们曾经提到“在2016年,防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章,文章里主要介绍了常见的反爬虫应对方法,下面是正文。 常见的反爬虫 这几天在爬一个网站,网站做了很多反爬虫工作,爬起来有些艰难,花了一些时间才绕过反爬虫。在这里把我转载 2016-08-30 22:18:59 · 424 阅读 · 0 评论 -
facebook 抓取用户的公共帖子
1、先从 该 https://smashballoon.com/custom-facebook-feed/access-token/ 教程 注册你自己的APPID AppSercret 生成一个access_token2、从 https://stackoverflow.com/questions/9373645/can-you-get-a-public-facebook-pages-f原创 2017-12-09 09:32:18 · 5107 阅读 · 0 评论 -
C# WebRequest同时Post提交图片和字段信息
public string HttpUploadFile(string url, string file, string paramName, string contentType, NameValueCollection collection) { var result = string.Empty; var boundary = "-----------------...转载 2018-03-07 17:17:36 · 853 阅读 · 0 评论 -
phantomjs 中文文档
入门教程:点击打开链接1.介绍简介 PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。它不仅是个隐形的浏览器,提供了诸如CSS选择器、支持Web标准、DOM操作、JSON、HTML5、Canv...转载 2018-04-04 08:13:35 · 1167 阅读 · 0 评论 -
手机号归属地 查询
1、http://www.guisd.com目前测试 有些号段无法查询出结构2、http://tcc.taobao.com/cc/json/mobile_tel_segment.htm?tel=***3、https://www.juhe.cn/docs/api/id/72需注册 免费 1000次/天4、http://www.114best.com/dh/114.aspx?w=百...原创 2019-04-09 14:05:28 · 688 阅读 · 0 评论