![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 60
XQLR
这个作者很懒,什么都没留下…
展开
-
静态网页正则表达式爬取图片并保存
因为https://desk.zol.com.cn/fengjing/恰好为静态网页,requests返回的东西有我们想要的东西,所以用最基础的正则表达式来爬取图片并保存。import requestsimport redef get_html(url): headers = { 'user-agent': 'Mozilla/5.0 (MSIE 10.0; Windows NT 6.1; Trident/5.0)' } html = requests.get(u原创 2021-03-29 12:34:00 · 213 阅读 · 0 评论 -
正则表达式爬取网页实战
文章目录网址:[猫眼电影排行榜](https://maoyan.com/board/4/)1.前提2.确定爬取目标3.页面分析4.正则表达式5.最终完整代码网址:猫眼电影排行榜1.前提首先,Chrome浏览器,右键点击“检查”,打开开发者模式,切换到network,点击当前页面4/。点开后,切换到response,查看源代码。若是直接看elements中的代码,有可能和源代码不同,因为那是经过浏览器加工后的代码。2.确定爬取目标我们爬取出电影序号,电影名称,图像链接,主演,电影上映时间3.页面原创 2021-03-27 09:17:54 · 2330 阅读 · 0 评论 -
正则表达式
文章目录先附上一个正则表达式的检测网址:[正则表达式测试工具](https://tool.oschina.net/regex/)1.常用的匹配规则2.match()3.匹配目标4.通用匹配5.贪婪与非贪婪6.修饰符7.转义匹配8.search()9.findall()10.sub()11.compile()先附上一个正则表达式的检测网址:正则表达式测试工具1.常用的匹配规则模式描述\w匹配字母、数字及下划线\W匹配不是字母、数字及下划线的字符\s匹配任意空白字符,原创 2021-03-26 16:45:19 · 138 阅读 · 0 评论 -
爬虫设置http代理的方法
文章目录一、寻找代理IP寻找http代理平台神龙http(注册后可在1天内免费得到1000ip)蜻蜓代理免费IP代理网二、设置nginx1.下载nginx2.下载后,解压缩3.打开nginx的conf/nginx.conf文件(可使用记事本),在http{}中加入如下代码:4.打开nginx三、Chrome设置代理服务器四、requests库使用代理一、寻找代理IP寻找http代理平台神龙http(注册后可在1天内免费得到1000ip)蜻蜓代理其余更多的,可以参考这篇博客免费IP代理网二、设置原创 2021-03-19 11:57:36 · 1511 阅读 · 0 评论 -
爬虫基础概念
文章来自牛客网友一、什么是爬虫和反爬虫爬虫:使用任何技术手段,批量获取网站信息的一种方式反爬虫:使用任何技术手段,阻止别人批量获取自己网站的一种方式二、常见的反爬虫机制1.通过UA识别爬虫:有些爬虫的UA是特殊的,与正常浏览器的不一样,可通过识别特征UA,直接封掉爬虫请求2.设置IP访问频率,如果超过一定频率,则封掉爬虫请求3.弹出验证码:如果输入正确的验证码,则放行,如果没有输入,则拉入禁止一段时间,如果超过禁爬时间,再次触发验证码,则拉入黑名单。当然根据具体的业务,为不同场景设置不同阈值,原创 2021-01-18 20:24:43 · 88 阅读 · 0 评论 -
爬取 某学校教务处发布的含有申报的通知的正文、标题、日期、链接
一、首先爬取所有的申报通知的网址链接import requestsimport refrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ecimport pandas as pdfrom bs4 import Beautifu原创 2021-01-18 19:40:34 · 283 阅读 · 0 评论 -
崔庆才爬虫训练网址第一题ssr1
崔庆才爬虫训练网址一import requestsfrom bs4 import BeautifulSoupimport timeimport reimport pandas as pdheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/87.0.4280.141原创 2021-01-16 19:26:49 · 568 阅读 · 0 评论 -
selenium免登录
selenium免登录文章目录一、案例用selenium免登录淘宝网二、代码 1 import json 2 import time 3 from selenium import webdriver 4 browser = webdriver.Chrome('E:/python/chromedriver.exe') 5 #导入webdriver 6 url = 'https://www.taobao.com/' 7 browser.get(url) 8 t...原创 2020-10-28 08:22:11 · 261 阅读 · 0 评论 -
Selenium各种操作解析
Selenium各种操作解析文章目录一、安装Selenium二、安装WebDriver三、使用chromedriver四、Selenium的使用方法五、查找节点六、节点交互动作链1.模拟鼠标移动(move_to_element)2.将一个节点拖到另一个节点上(drag_and_drop)八、执行JavaScript代码九、获取节点信息十、管理cookies十一、改变节点的属性值Selenium本质上是一款自动化测试工具,主要用于测试Web应用。对动态网页(用JavaScript渲...原创 2020-10-28 08:20:57 · 282 阅读 · 0 评论 -
Scarpy爬取静态网页信息
Scarpy爬取静态网页信息文章目录Scarpy爬取静态网页信息一、案例说明二、Scarpy操作三、代码四、存储为csv文件一、案例说明用Scarpy爬取湖北经济学院经院要闻新闻的标题、网址,http://news.hbue.edu.cn/jyyw/list.htm。需注意:动态网页的源代码,被浏览器加工后,可能与源代码不同。二、Scarpy操作(1)在电脑开始菜单中,搜索cmd并打开(2)在cmd中,切换到写scrapy文件的位置。例如我要写到我的e盘python文件夹中。所以先输入e:进入原创 2020-10-28 08:16:13 · 283 阅读 · 0 评论 -
用requests和BeautifulSoup爬取静态网页
用requests和BeautifulSoup爬取静态网页一、案例说明本案例使用requests和BeautifulSoup爬取湖北经济学院经院要闻的前2页新闻标题、日期、发布者、内容二、爬虫思路首先找到网址(http://news.hbue.edu.cn/jyyw/list.htm)的页面,右键“检查”,显示出开发者模式发现每页的新闻网址都为(http://news.hbue.edu.cn/jyyw/list+数字.htm),所以可以根据这个信息来爬取不同的新闻网页发现每页新闻的网址都在spa原创 2020-10-28 08:12:34 · 330 阅读 · 0 评论