爬虫-python
文章平均质量分 52
苹果切一半
庸人总被自扰
展开
-
python的requests 模块使用方法
**一 介绍使用requests 可以模拟浏览器的请求安装: pip3 install requests注意: requests发送请求将网页内容下载下来之后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的requests请求. selenium可以实现完全浏览器请求,可以执行js代码 常用的请求方式 requests.get 和requests.post() 官网链接:原创 2017-11-07 20:04:31 · 1611 阅读 · 0 评论 -
python 中的selenium模块使用方法
1. 简介 selenium 最初是一个自动化测试工具,因为requests无法直接执行js代码,所以在爬虫中使用它. selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转 输入 点击 后退 前进等, 直接那到网页渲染后的结果,可以支持多种浏览器.```from selenium import webdriverbrowser=webdriver.Chro原创 2017-11-08 18:46:49 · 4130 阅读 · 0 评论 -
python 中beautifulsoup 模块
美味的汤~~介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的python库,先使用版本为 Beautiful Soup 4#安装 Beautiful Souppip install beautifulsoup4#安装解析器Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,其中一个是 lxml .根据操作系原创 2017-11-10 10:07:39 · 309 阅读 · 0 评论 -
Python 中的串行执行 并发执行 同步异步
程序的执行: 串行执行:import requestsimport timedef get_page(url): print('GET: %s' %url) response=requests.get(url) print(url,len(response.text)) return response.texturls=[ 'https://www.bai原创 2017-11-10 14:22:03 · 3788 阅读 · 1 评论 -
python asyncio模块
在python 3,3后新增了asyncio模块,可以帮我们检测IO(只能是网络IO), 实现应用程序级别切换.import asyncio@asyncio.coroutinedef task(task_id,senconds): print('%s is start' %task_id) yield from asyncio.sleep(senconds) #只能检测网络IO,原创 2017-11-12 10:11:18 · 453 阅读 · 0 评论