Python 爬虫 基础
pythondafahao
修仙
展开
-
爬虫
按照 实现的技术和结构 可以分为 :通用网络爬虫:爬取目标数据巨大,范围巨大,海量数据,性能要求非常高。聚焦网络爬虫:有选择的爬取,可节省宽带资源和服务器资源。增量式网络爬虫:只爬取内容发生变化的网页,或者新产生的网页。深层网络爬虫 :爬取深层网页。隐藏在表单后面,不能通过静态链接直接获取的网页。等......原创 2018-03-16 13:59:33 · 218 阅读 · 0 评论 -
识别网站
sudo pip3 install builtwithimport builtwithbuiltwith.parse('http://www.baidu.com')import whoiswhois.whois('http://www.baidu.com')site:www.baidu.com原创 2018-03-21 13:11:43 · 259 阅读 · 0 评论 -
Python3 ubuntu16.04 phantomjs 与 selenium 抓取数据
1 sudo apt install phantomjs 安装2 phantomjs --version 查看版本http://javascript.ruanyifeng.com/tool/phantomjs.htmlphantomjs 即将 停止使用了 比较老的技术手段一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵;Selenium也可以做类似的事情,...原创 2018-03-31 14:30:43 · 509 阅读 · 0 评论