爬虫
文章平均质量分 68
爱人BT
好好学习天天向上!
展开
-
Scrapy 内置 Telnet 终端(Telnet Console)
Scrapy 提供了内置的 Telnet 终端,以供检查,控制 Scrapy 运行的进程;Telnet 仅仅是一个运行在 Scrapy 进程中的普通 Python 终端;该扩展默认为启用,不过你也可以关闭。如何访问:Telnet 终端监听设置中定义的 TELNETCONSOLE_PORT,默认为 6023,访问 telnet 请输入:telnet localhost 6023Win...原创 2018-10-18 10:18:19 · 4149 阅读 · 3 评论 -
Scrapy 爬虫库的学习
一、安装库爬虫性能的相关知识pip install wheelpip install scrapypip install pywin32''' windows 可能需要安装 Microsoft Visual C++ Build Tools 和 Visual C++ 14.0,如果C++版本不够,需要安装后才能安装scrapy库'''二、工作流程1、指定初始...原创 2018-10-24 10:55:36 · 479 阅读 · 0 评论 -
Python requests 爬虫模块的使用
一、安装 requests 模块pip install requestsRequests 中文文档二、使用模块import requests as req''' 1、GET,POST的基本语法 '''# GET请求response = req.get(url,params,**kwargs)# 例子:req.get(url,params={'wd':'百度'},hea...原创 2018-10-08 11:15:13 · 1036 阅读 · 0 评论 -
使用 Python Beautiful Soup 解析爬虫爬取信息模块
一、安装pip install beautifulsoup4Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库;它能够实现文档导航,查找,修改文档等操作。二、使用方法from bs4 import BeautifulSoup # 引用模块# features html的解析引擎soup = BeautifulSoup('html或者x...原创 2018-10-09 09:34:21 · 1213 阅读 · 0 评论 -
Python 实现网络爬虫小程序
一、引用相关模块import requestsfrom bs4 import BeautifulSoup二、配置 headers 和需要爬取的 url 地址headers = { 'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML...原创 2018-10-09 10:13:02 · 492 阅读 · 0 评论 -
Python 爬虫性能提升相关知识
一、多线程、多进程实现并发的基本应用1.1、线程与进程的关系 线程是计算机的最小单元,线程存在于进程中;没开一个进程都会包含线程。I/O密集型的程序用多线程实现较好,计算密集型的程序用多进程实现比较好。在Python中进程会有一个GIL锁,同一时刻只能允许一个进程中的线程去到CPU,进行请求,而计算型的程序需要高速的请求CPU进行计算,开设多个进程对CPU进行请求完成高效率的计算...原创 2018-10-24 10:55:45 · 301 阅读 · 0 评论 -
Python Twisted 网络引擎模块
简单使用Twisted是用Python实现的基于事件驱动的网络引擎框架,Twisted支持许多常见的传输及应用层协议,包括TCP、UDP、SSL/TLS、HTTP、IMAP、SSH、IRC以及FTP。就像Python一样,Twisted也具有“内置电池”(batteries-included)的特点。Twisted对于其支持的所有协议都带有客户端和服务器实现,同时附带有基于命令行的工具,使得配置...原创 2018-10-25 10:07:20 · 1801 阅读 · 0 评论