![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫/数据采集
编程哲学家
资深PHP,擅长抽象编程,没有我实现不了的需求,没有我解决不了的问题;主导过多个成功的项目,带领过超过十人以上团队,擅长架构与程序设计、发掘业务以及解决各种各样的问题,知识面广,博学,爱智慧与思考。
展开
-
【php爬虫】网络爬虫开发领域常见问题分析以及解决方案
这里只谈数据采集/爬虫开发过程中可能遇到一些问题/反爬机制,以及如何解决(问题解决思路),其他的暂时不谈。可能会遇到的一些问题:目标网站/app没有做反扒机制,那这就很好搞了,你就放开了随便爬,爬他个天荒地老、海枯石烂,只要服务器不到。 目标网站/app会做一些简单的Referer、host、head请求头验证等。 目标网站会做一些登录之类的cookie验证(如淘宝)。 目标网站会一...原创 2019-12-15 15:27:34 · 514 阅读 · 0 评论 -
爬虫技术现状分析
需求万维网上有着无数的网页,包含着海量的信息,无孔不入、森罗万象。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是纵然是进化到21世纪的人类,依然只有两只手,一双眼,不可能去每一个网页去点去看,然后再复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫。原理传统爬虫从一个或若干初始网页的URL开始,...原创 2019-12-21 12:04:16 · 4965 阅读 · 0 评论 -
使用phpQuery轻松采集网页内容
采集头条先看一实例,现在我要采集新浪网国内新闻的头条,代码如下: 1 2 3 include'phpQuery/phpQuery.php'; phpQuery::newDocumentFile('http://news.sina.com.cn/china'); echopq(".blkToph1:eq(0)")->...原创 2019-12-14 10:30:51 · 220 阅读 · 0 评论 -
【php采集/爬虫库】phpQuery的用法
下面简单举例:include'phpQuery.php';phpQuery::newDocumentFile('http://www.phper.org.cn');echopq("title")->text(); //获取网页标题echopq("div#header")->html(); //获取id为header的div的html内容上例中第一行引入ph...原创 2019-12-13 15:05:57 · 391 阅读 · 0 评论