爬虫
卢政孝simi
个人网站http://www.smilenow.top
展开
-
07.Python浏览器自动化模块selenium简介
一.selenium简介Selenium是一个用于测试网站的自动化测试工具,支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器,同时也支持phantomJS无界面浏览器。二.selenuum的使用1.安装pip install selenium2.下载浏览器驱动程序chrome浏览器驱动程序Firefox浏览器找到自己的浏览器版本下载驱动程序3.浏览器自动播放咪咕音乐周杰伦歌曲列表第二首歌曲from selenium import webdriverimp原创 2020-11-18 19:17:31 · 508 阅读 · 0 评论 -
06.python aiohttp实现异步爬虫
一.进程池实现异步爬虫1.代码#原则:线程池处理的是阻塞且较为耗时的操作#对下述url发起请求解析出视频详情页的url和视频的名称url = 'https://www.pearvideo.com/category_5'page_text = requests.get(url=url,headers=headers).texttree = etree.HTML(page_text)li_list = tree.xpath('//ul[@id="listvideoListUl"]/li')u原创 2020-11-15 20:46:04 · 135 阅读 · 0 评论 -
05.python requests IP代理
一.问题爬虫程序单位时间访问次数达到服务器所限定的峰值,服务器会封掉我们本地的ip二.代理的作用突破自身IP访问的限制隐藏自身真实IP三.代理相关的网站快代理西祠代理www.goubanjia.com四.代理ip的类型http:应用到http协议对应的url中https:应用到https协议对应的url中五.代理ip的匿名度透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip匿名:知道使用了代理,不知道真实ip高匿:不知道使用了代理,更不知道真实的ip原创 2020-11-13 02:00:33 · 834 阅读 · 0 评论 -
04 python 爬虫cookie的处理
一.简介爬虫无法像浏览器一样自动存取和发送cookie,需要我们手动处理二.处理cookie方法1.用 requests.utils.dict_from_cookiejar() 把返回的cookies转换成字典import requests#得到cookiedef login(): login_url = 'http://www.xxx.com/login headers = { "Accept": "application/json, text/javascri原创 2020-11-13 01:31:46 · 401 阅读 · 0 评论 -
03.Python 爬虫数据解析
一.数据解析的方式re(正则)bs4xpath二.数据解析的目的精准获取我们在网页中想得到的数据三.re(正则)方式解析数据1.爬取爬取糗事百科中所有的糗图图片数据import osimport requestsimport refrom urllib import requestif not os.path.exists('./qiutu'): os.mkdir('./qiutu')headers = { 'User-Agent':'Mozilla/5.0 (原创 2020-11-12 19:33:29 · 128 阅读 · 0 评论 -
01.爬虫基础简介
前戏:你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源…你是否在节假日出行高峰的时候,想快速抢购火车票成功…你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品…什么是爬虫:- 通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。爬虫的价值:实际应用就业爬虫究竟是合法还是违法的?在法律中是不被禁止具有违法风险善意爬虫 恶意爬虫爬虫带来的风险可以体现在如下2方面:- 爬虫干扰了被访问网站的正常运营- 爬虫抓取了收到法律保护的转载 2020-11-08 16:01:00 · 156 阅读 · 0 评论 -
02.python requests模块详解
一.requests的安装pip install requests二.requests爬取搜狗首页并存储1.request.get方法requests.get(url,params,kwargs)url:请求地址params:参数2.代码import requestsif __name__ == "__main__": #step_1:指定url url = 'https://www.sogou.com/' #step_2:发起请求 #get方法会返回一个原创 2020-11-10 18:49:43 · 324 阅读 · 0 评论