![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
LXJRQJ
。。。。
展开
-
python爬虫
python爬虫《1》什么是爬虫网络爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。《2》爬虫的基本原理:我们把互联网比喻为一张大网,网络爬虫我们想象为网上的蜘蛛,网页与网页之间的连接我们理解为节点,爬虫就相当于是访问网页,获取网页的信息,又通过节点可以爬取另一个网站,然后不停的通过一个个节点即访问一个个网页,这样网站的数据就可以...原创 2019-06-16 19:48:49 · 391 阅读 · 0 评论 -
python爬虫re模块(抓取信息)
python爬虫1《1》什么是爬虫网络爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人), 是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。《2》爬虫的基本原理:我们把互联网比喻为一张大网,网络爬虫我们想象为网上的蜘蛛,网页与网页之间的连接我们理解为节点,爬虫就相当于是访问网页,获取网页的信息,又通过节点可以爬取另一个网站,然后不停的通过一个个节点即访问一个个网页,这样网站的数据就可...原创 2019-09-09 08:47:44 · 1350 阅读 · 0 评论 -
Requests和XPath的使用
Requests的使用按住方式:pip3 install requests1、response的常用方法:一、get请求print(response.text) #页面源码print(response.status_code) # 状态吗print(response.headers) # 响应头print(response.request.headers) #获取请求头print(...原创 2019-09-09 20:06:27 · 1513 阅读 · 0 评论 -
爬虫入门—BeautifulSoup4的使用
CSS 选择器:BeautifulSoup4安装:pip install beautifulsoup4官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。使用首先必须...原创 2019-09-10 19:37:51 · 407 阅读 · 0 评论 -
scrapy_redis分布式爬虫总结
scrapy_redis分布式爬虫总结scrapy_redis:Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式安装:pip3 install scrapy-redisScrapy_redis是工作流程官方文档第一步: 启动Redis首先需要把Redis启动起来。使用Mac OS/Linux的可以...原创 2019-09-22 19:39:55 · 638 阅读 · 0 评论 -
爬虫部署
*爬虫部署需要先下载插件pip3 install scrapydscrapyd:是运行scrapy爬虫的的服务程序,它支持以http命令方式发布,删除,启动,停止爬虫程序。而且,scrapyd可以同时管理多个爬虫还可以有多个版本pip3 install scrapyd-clientscrapyd-client:是发布爬虫需要使用的另一个专用共具,就是将代码打包为EGG文件,其次需要将EG...原创 2019-09-22 19:50:39 · 284 阅读 · 0 评论