Spider
文章平均质量分 85
Billie使劲学
这个作者很懒,什么都没留下…
展开
-
scrapy post请求——百度翻译(十四)
scrapy处理 post 请求爬取百度翻译界面。原创 2023-12-14 09:13:52 · 561 阅读 · 0 评论 -
scrapy ——链接提取器之爬取读书网数据(十三)
1.继承自 scrapy.spider2.CrawlSpider可以定义规则。在解析 html 的时候,可以根据链接规则提取出指定的链接,然后再向这些链接发送请求。所以,如果有需要跟进链接的请求,意思就是爬取了网页之后,需要提取链接在此爬取,使用CrawlSpider是非常合适的。3.提取链接链接提取器,在这里就可以写规则提取指定链接allow=(), # (常用)正则表达式 提取符合正则的链接deny=(), # 正则表达式,不提取符合条件的链接。原创 2023-12-14 09:13:07 · 1086 阅读 · 0 评论 -
爬虫 scrapy ——获取电影名及图片(十二)
爬取电影天堂的电影名、图片,图片地址位于电影名的下一层链接中。获取标题,点击链接再获取这一页的图片。原创 2023-12-13 09:16:27 · 390 阅读 · 0 评论 -
爬虫 scrapy ——scrapy shell调试及下载当当网数据(十一)
什么是scrapy shell?scrapy终端,是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码,不过您可以将其作为正常的python终端,在上面测任何的python代码。该终端是用来测试Xpath或css表达式,查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时,一旦熟悉了scrapy终端后,您会发现其在开发和调试spider时发挥的最大作用。定义要获取的图片、书名和价格# 通俗地讲就是你下载的数据都有什么# 爬取图片。原创 2023-12-13 09:16:22 · 1185 阅读 · 2 评论 -
爬虫 scrapy —基本使用及工作原理(十)
scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。爬取更快,程序更加健壮。一系列的程序中。爬取更快,程序更加健壮。原创 2023-12-12 09:46:27 · 1324 阅读 · 0 评论 -
爬虫 requests——获取网络请求(九)
抓登录界面的接口:登录界面,输入错的信息点击登录。找到以“login”开头的名称,可以看到登录界面的参数。r.encoding:访问或定制编码方式。r.status code:响应的状态码。类型:models.Response。r.content:响应的字节类型。在源代码中找到这两个变量,这两个变量被称为隐藏域。r.headers:响应的头信息。打码平台可以自动识别验证码,如:超级鹰打码平台。r.url:获取请求的url。r.text:获取网站源码。抓取登录接口的,发送post请求。# 1. 隐藏域问题。原创 2023-12-12 09:43:38 · 757 阅读 · 0 评论 -
爬虫 selenium语法 (八)
模拟浏览器功能,自动执行网页中的js代码,实现动态加载。path = 谷歌浏览器驱动文件路径url = 要访问的网址:自动化要做的就是模拟鼠标和键盘来操作这些元素,如点击、输入等等。操作这些元素前首先要找到它们,webdriver提供很多定位元素的方法。(1)find_element(By.ID, 'id 名')(2)find_element(By.NAME, 'name 名')(3)find_elements(By.XPATH, 'Xpath语法')原创 2023-12-08 09:56:51 · 2070 阅读 · 0 评论 -
爬虫解析-BeautifulSoup-bs4(七)
beautifulsoup:和lxml一样,是一个html的解析器,主要功能也是解析和提取数据。优缺点:缺点:没有lxml效率高优点:接口更加人性化,使用方便。原创 2023-12-08 10:02:41 · 1613 阅读 · 0 评论 -
爬虫解析-jsonpath (六)
jsonpath只能解析本地文件打开检查中的网络,当鼠标悬浮在“深圳”这个位置上时,就会出现一个下拉列表,我门点击左侧新出现的名称后,从预览中可以看到与上面对应的所有的城市名称,我们就可以用jsonpath把这些城市都爬下来。原创 2023-12-07 09:23:55 · 672 阅读 · 0 评论 -
爬虫解析——Xpath的安装及使用(五)
进入chrome应用商店搜索 Xpath helpler选择这个安装怎么看扩展是否安装成功呢?随便打开一个页面,然后 按快捷键 Ctrl+Shift+X出现这个黑色的框框就算安装成功了。原创 2023-12-11 09:11:05 · 3617 阅读 · 0 评论 -
urllib 异常、cookie、handler及代理(四)
4.通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更加健壮,可以通过try-except进行捕捉异常,异常有两类URLError和HTTPError。3.http错误:http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页是哪里出了问题。2.导入的包urllib.error.HTTPError urllib.error.URLError。1.HTTPError类是URLError类的子类。原创 2023-12-07 09:21:29 · 1301 阅读 · 0 评论 -
urllib爬虫 应用实例(三)
设置url,检查 --> 网络 --> 全部 --> top_list --> 标头 --> 请求URL。目标:获取豆瓣电影第一页的数据,并保存为json文件。原创 2023-12-06 09:26:10 · 698 阅读 · 0 评论 -
urllib 的 get 请求和 post 请求(二)
目标:下载数据知识点:urllib.request.urlretrieve()下载使用urllib下载网页、图片和视频下载图片:二、目标:爬取整个网页知识点:学习一种反爬方法,并定制请求对象。原创 2023-12-06 09:21:58 · 1558 阅读 · 0 评论 -
爬虫概念、基本使用及一个类型和六个方法(一)
如果我们把互联网比作一个巨大的网,那一台计算机上的数据就是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据。解释1:通过一个程序进行爬取网页,获取有用信息解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息。原创 2023-12-04 17:48:32 · 3301 阅读 · 1 评论 -
chrome driver下载、selenium安装及报错解决
这里说一下在新版本的selenium中修改了一下对象的调用方式,我安装的selenium版本是“4.11.2”,在“4.3.0”版本之后,一些代码就发生了改变。这里,“by”相关的方法移到了“common.by”中,我们“ctrl”然后点击“by”进入到“by.py”文件中,可以看到这里可调用的对象。然后选择我们想要的驱动“chromedriver”,我的电脑是64位,所以我选择“win64”,然后将后面的链接复制到浏览器中就可以下载了。打开Chrome浏览器,点击右上角的三个点,再点击设置。原创 2023-11-06 11:33:18 · 27859 阅读 · 5 评论