自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 selenium案例——爬取哔哩哔哩排行榜

comment_counts = soup.select('.info .detail-state .data-box:nth-of-type(2)') # 评论量。play_counts = soup.select('.info .detail-state .data-box:nth-of-type(1)') # 播放量。up_names = soup.select('.info .up-name') # up主。ws.append(['标题','up主','播放量','评论量'])

2024-10-17 10:10:36 355

原创 selenium基本使用

窗口切换 switch_to_window(窗口ID) switch_to.window(窗口ID) (python3.8以上版本都支持,python3.7只支持后者写法)browser.find_element(By.LINK_TEXT,"新闻").click() # 通过.click()点击目标链接。find_element_by_partial_link_text 可以只写部分超链接文字。find_element_by_class_name 根据class的名字来定位。

2024-10-14 14:36:34 742

原创 selenium安装

1,安装selenium-- 命令:-- 网络不稳的请换源安装:1.查看谷歌浏览器版本打开谷歌浏览器——点击左侧三个点——点击帮助——点击关于Google chrome2.下载谷歌浏览器webdriver驱动打开百度,输入chrome webdriver,下载谷歌浏览器webdriver驱动或者点击https://www.cnblogs.com/aiyablog/articles/17948703#:~:text=chromedriv-- 根据自己谷歌版本选择驱动器-- 选择对应版本,如果没有对应版本选择跟

2024-10-13 10:32:13 664

原创 爬虫案例——网易新闻数据的爬取

print('==========', '当前是第{}页'.format(i))该网站属于异步加载网站——直接网页中拿不到,需要借助fidder抓包工具拿取。因为该网页不是常规的josn源码数据,所以需要进行一些处理。3.利用jsonpath解析数据。2.爬取所有数据(翻页参数)利用josnpath解析数据。1.爬取该新闻网站——()的数据,包括标题和链接。可以看到第一页请求网址。首页地址为第一页地址。

2024-10-12 09:19:05 1179

原创 requests案例——爬取微博的一级和二级评论

一级评论接口:https://m.weibo.cn/comments/hotflow?二级评论接口:https://m.weibo.cn/comments/hotFlowChild?max_id: 13883307764046392 #翻页参数---从第二页开始 (在上一页一级评论接口可以找到)max_id: 0 #二级翻页参数(在上一页评论接口中可以找到)print('-------二级评论-------')

2024-10-11 12:03:50 1053

原创 反爬机制——验证码识别

1.获取登录接口的请求地址2.获取解析验证码图片链接#解析图片链接 https://so.gushiwen.cn/RandCode.ashx3.将其保存在本地4.但由于验证码是动态的,每次都不一样,所以解决方案——session会话来维持#实例化session5.得到图片后,想要将其读取出来——需要用到超级鹰。

2024-10-10 12:33:22 1311

原创 爬虫工具——Fidder的安装

Headers —— 显示客户端发送到服务器的 HTTP 请求的 header,显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等。查看你的本机IP地址,在Fiddler的右上角有一个Online按钮,点击一下会显示你的IP信息。打开你的手机,找到你所连接的WIFI,长按选择修改网络,输入密码后往下拖动,然后选择wifi。XML —— 如果请求的 body 是 XML 格式,就是用分级的 XML 树来显示它。ImageVies —— 如果请求是图片资源,显示响应的图片。

2024-10-09 10:18:28 327

原创 爬虫案例——爬取腾讯社招

wb = workbook.Workbook() # 创建Excel对象。ws.append(['职称', '链接', '时间', '公司名称'])print("第{}页已经保存完毕!my_list = [z,l,s,g] # 以列表形式写入。4.保存数据:txt文本形式和excel文件两种形式。——异步(查看xhr)wb.save('腾讯社招.xlsx')4.删除不必要的,找到正确的(可删可不删)5.该网站反爬手段比较强,给其进行伪装。2.找到正确的数据包——看响应内容。1.爬取腾讯社招的数据(

2024-10-08 09:21:46 1882

原创 爬虫案例——爬取长沙房产网租房信息

price = s.find_all('span',{'class':'content__list--item-price'})#价格。content = s.find_all('p',{'class':'content__list--item--des'})#地址。print('==========','当前是第{}页'.format(i))包括租房标题、标题链接,价格和地址。refere参数:代表页面的来源。处理获取到的地址、价格和租房标题。翻页参数和refere参数。3.使用bs4解析数据。

2024-10-07 13:56:59 789

原创 爬虫案例——爬取情话网数据

1.爬取情话网站中表白里面的所有句子(3.使用面向对象形发请求——创建一个类。4.将爬取下来的数据保存在数据库中。如此照推,详情页文本对应的解析语法。2.利用XPath来进行解析。

2024-10-06 13:48:56 1107

原创 爬虫——XPath基本用法

xpth解析(1)本地文件 etree.parse(2)服务器响应的数据 response.read().decode('utf-8') etree.HTML()

2024-10-05 18:04:14 1687

原创 requests案例——腾讯新闻数据的爬取

2.因为新闻都是实时更新的,所以虽然有161页,但是一般最后一页大多无数据,这会导致爬取数据错误,所以需要添加一个异常处理。1.检查一下使用的openpyxl是最新版本,因为这个问题可能已经在新版本中被修复。print(f"请求失败,状态码:{r.status_code}")1.利用requests方法爬取腾讯新闻的数据(包括新闻名字和对应新闻链接)print(f"请求异常:{e}")print(f"解析异常:{e}")3.将爬取下来的数据保存在excel文件中。4.利用jsonpath来解析获取的数据。

2024-10-05 14:33:42 826

原创 数据提取之JSON与JsonPATH

爬虫最常用1、数据抓取 - json.loads(html)将响应内容由: json 转为 python2、数据保存 - json.dump(item_list,f,ensure_ascii=False)将抓取的数据保存到本地 json文件抓取数据一般处理方式1、txt文件2、csv文件3、json文件4、MySQL数据库5、MongoDB数据库6、Redis数据库。

2024-10-04 11:11:07 1001

原创 爬虫——BS4基本用法

1.是一个高效的网页解析库,可以从HTML或XML文件中提取数据2.支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析3.就是一个非常强大的工具,爬虫利器4.一个灵感又方便的网页解析库,处理高效,支持多种解析器5.利用它就不用编写正则表达式也能方便的实现网页信息的抓取。

2024-10-03 17:05:07 614

原创 爬虫——同步与异步加载

同步模式--阻塞模式(就是会阻止你浏览器的一个后续加载)停止了后续的解析 因此停止了后续的文件加载(图像)当你不断往下滑刷新页面后,这时就会出现上面2中,类似的url地址,只不过他的offset会发生变化。---ajax加载(通过异步加载回来的数据 一般都是json数据)-----通过接口返回的数据(json)动了 ----- 同步--找数据包优先找all。未动 --异步--找数据包优先找xhr。---网页文本(html)----javascript渲染。---直接返回的网页文本。

2024-10-03 10:59:08 1056

原创 爬虫——爬取小音乐网站

从以上结果可以看出,此链接不可直接点击,缺少https://www.hifini.com/这一部分。1.发请求,获得网页源码 #1.和2是在一步的 发请求成功了之后就能直接获得网页源码。print("歌曲播放资源链接",song_link)第三步:再次像歌曲播放资源链接发请求 获得二进制数据,进行保存。print('歌名:',song_name)os.makedirs("歌曲")2.创建文件流,将歌曲保存在文件夹中。# print('歌曲信息',r)第二步:获取歌曲播放资源。#解析歌曲的播放组员。

2024-10-02 14:44:50 3624

原创 正则表达式(补充)

<a href="/4.mp3" singer="beyond">光辉岁月</a></li><li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>print(res.group()) # .group()获取匹配内容。<li data-view="2">一路有你

2024-10-02 09:41:56 1407

原创 爬虫——爬虫理论+request模块

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动的抓取互联网信息的程序。⼀句话——Requests是一个Python代码编写的HTTP请求库,方便在代码中模拟浏览器发送http请求a。http/https 协议 是一种无状态的协议,对事物处理无记忆功能,所以每次请求都是一个独立状态。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做,也就是说万物皆可爬,可视即可爬。它比urllib更加方便,可以节约大量的工作,完全满足HTTP测试需求的库。

2024-10-01 17:22:02 1679

原创 前端——Ajax和jQuery

jQuery是JavaScript的工具库,对原生JavaScript中的DOM操作、事件处理、包括数据处理和Ajax技术等进行封装,提供更完善,更便捷的方法。

2024-10-01 13:10:41 1742

原创 前端——切换轮播图

学完前端js小知识后,动手操作的一个简单图片轮播图。

2024-09-30 18:29:59 466

原创 前端——DOM与BOM总结

DOM全称为 “Document Object Model”,文档对象模型,提供操作HTML文档的方法。(注:每个html文件在浏览器中都视为一篇文档,操作文档实际就是操作页面元素。当网页加载时,浏览器就会自动创建当前页面的文档对象模型(DOM)。在DOM中,文档的所有部分(例如元素、属性、文本等)都会被组织成一个树结构(类似于族谱),树中每一个分支的终点称为一个节点,每个节点都是一个对象。

2024-09-30 13:14:49 1802

原创 前端——css动画

keyframes +自定义动画名字0%-100% 就是动画的开始到结束 帧数 ——from to0% {20% {30% {100% {或者from {20% {30% {to {

2024-09-29 16:39:28 860

原创 前端——js补充

sessionStorage.setItem("宇智波厚度", "吊打一打七 + 干柿鬼鲛")localStorage.setItem("宇智波厚度", "吊打一打七 + 干柿鬼鲛")sessionStorage.setItem("宇智波厚度", "吊打一打七")localStorage.setItem("宇智波厚度", "吊打一打七")console.log(d.getMonth() + 1);

2024-09-29 09:29:07 1058

原创 前端——js函数+DOM对象

TN: 'div', innerText: '我是被宇智波厚度,构建出来的。', title: '我是被宇智波厚度,构建出来的。//将img元素作为app元素的最后一个子节点添加到DOM中。//这个方法接受两个参数:第一个是要插入的节点,第二个是参考节点(即新节点将被插入到这个参考节点之前的位置)//insertBefore 方法用于在指定的子节点之前插入一个节点(或一个新创建的节点)。//appendChild 方法用于将一个节点添加到父节点的子节点列表的末尾。// 子盒子 (判断数据类型)

2024-09-28 11:28:51 1033

原创 前端——js数组和对象

obj 来接收对象 例子: let 变量名={};//属性:属性值name: '落落',// 数据和数据之间要用逗号隔开breed: '银渐层',age: '1岁',like: ['猫条', '小鱼仔', '鸡胸肉']

2024-09-27 13:37:42 679

原创 前端——js数据类型

NaN是特殊的值 它的类型是数值类型 表示一个损坏的数值 (通常出现在 不能转换为数字的数值 运算时产生 比如 0 / 0)// 讲布尔值 转为数字 false 返回 0 true返回 1。// 除了加+ 以外的运算符 比如 - / * 都会把数据 转为数字类型。// 1 小于 0 结果假的 false。console.log(isFinite('大家好'));

2024-09-27 11:27:22 754

原创 前端——js基础

核心语法 ECMScipt 简称(es): 规范js的基本语法1.es是js的语法规范 管理者2.js是es的实现 操作者- DOM => 文档对象 提供js操作 (例如: 通过js来获取页面中某个元素)- BOM => 浏览器对象模型 英文全称: Browser Object Model 提供一系列 操作浏览器的方法。

2024-09-26 11:12:35 717

原创 前端——flex布局

行内元素 在父级flex里面 可以支持高宽设置 没写高默认是按flex规范来分配 高不写默认占满整个父级高度 宽度 是由内容来决定的。- align-self 规定子元素 自身在y轴的对齐方式 默认是继承父级align-items。- flex-grow 在主轴还有剩余空间 给子元素分配剩下的空间 增大子元素 默认是0。2.flex-wrap: 控制子元素是否需要换行 默认不换行 nowrap。- flex-shrink 子元素在主轴不足 缩放比例 默认是1。

2024-09-25 15:59:08 557

原创 前端——阿里图标的使用

练习1:实现如此效果——https://static.zzhitong.com/lesson-files/html/code/15-1.html。5.解压后你下载的文件 然后在文件里面 找到一个叫 demo_index页面 并且打开 里面有详细的方法介绍。1.打开阿里图标库 https://www.iconfont.cn/4.全部选择完之后 点击右上角 购物车 然后下载代码。将小图标定义成字体,通过引入字体的方式来展示这些图标。3.选中你需要使用的图标 并且把它加入购物车。

2024-09-24 21:37:11 432 1

原创 前端——高级选择器

* 伪元素必备 开启的一把key 钥匙 */content: '以后都要认认真真搞学习了';- checked 点击勾选状态 只能单选和多选使用。content: '老师说:';/* 伪元素可以被伪类选择器选中 *//* 用伪元素 在内容前面插入 *//* 用伪元素 在内容后面插入 */- focus 获取焦点状态 input使用。/* 伪元素内容 */- 同类别选择器 兄弟选择器。- active 鼠标点击状态。未触发选择器前(左)触发后(右)- hover 鼠标悬停状态。

2024-09-23 15:01:30 664

原创 前端——表单标签样式

method: 表单提交格式 https网络协议请求格式: post/get等 通常: post方式是发送数据 而get是拿取数据。e.button 空按钮 如果需要设置按钮名字 那就设置value。target: 提交完表单之后 你的新页面在哪里打开。- button按钮标签 专门来当按钮的。- value属性 输入控件里面的值。- value属性 输入控件里面的值。- name属性 控件名称。- name属性 控件名称。name: 表单的名称。

2024-09-22 15:43:43 520

原创 前端——浮动+定位样式

c.绝对定位 一般配合相对定位来使用 来达到一个 子绝父相 (父相子绝)的效果 子级是绝对定位 父级是相对定位 子级去参考 父级的相对定位来移动。常用于解决父级高度塌陷问题:父级盒子不设置高度,默认是由里面的子级撑开,但是子级设置了浮动元素,浏览器在计算高度时不会把添加了浮动元素的子元素算进去。b.参考位置 以最近一个父级定位属性来移动 (如果说找不到最近的一个定位父级 那就找body 祖先元素 )- z-index 层数只允许写了定位属性元素使用。

2024-09-22 10:35:52 1176

原创 元素类型+文字样式作业

作业1:https://img.picui.cn/free/2024/09/21/66ee870c40e6a.png。作业2:https://img.picui.cn/free/2024/09/21/66ee87556dc6d.png。2.设计知识点:元素类型+文字样式+盒模型+初级选择器。

2024-09-21 17:03:22 380

原创 前端——元素类型+文字样式

">包裹文字标签</span><p style="background-color: green;1.本质上是行内元素 具有行内特征 可以横排显示 不会独占一行 可以和行内元素并排显示。3.不支持设置 auto自适应居中 上下外边距不支持 但是支持设置 左右外边距。

2024-09-21 13:58:42 1263

原创 前端——盒子模型

* 边框大小: 10 边框风格: solid实线 边框颜色:红色 *//*200 变成 220 总盒子宽度: 内容200+ 左右都是10*//* 四个值 按照顺时针 上:10 右 20 下 30 左 40 *//* 顶部外边距 盒子与顶部的距离 盒子向下移动 *//* 三个值 上 10 左右各20 下30 *//* 三个值 上10 左右各20 下30 *//* 外边距 上下左右 都是10像素 *//* 内边距 上下左右都有10像素的内边距 */

2024-09-21 12:20:39 738

原创 前端基础标签知识小作业

作业1:https://static.zzhitong.com/lesson-files/html/code/3-2.html。作业2:https://static.zzhitong.com/lesson-files/html/code/3-1.html。作业3:https://static.zzhitong.com/lesson-files/html/code/3-3.html。

2024-09-20 22:15:21 274

原创 初级css+初级选择器

这是一段文本

2024-09-20 21:48:21 755

原创 前端知识——标签知识

img src="./1.webp" alt="看到图片了吗" width="500px" height='300px' title='这是我的可莉吗?>p标签里面不可以嵌套其它的块级标签(div h1~h6 p等) 会导致浏览器自动分裂成两个标签 不规范的写法。-- 找到你需要的位置 并且添加一个id 但是id名不允许重复 唯一 -->-- a标签 然后想跳转到其他标签位置那就需要用id名 来进行跳转 -->我是这个页面的顶部位置

2024-09-20 14:20:20 428

原创 正则+文件实现未交作业名单

filepath = r'sourceFile'#实验报告保存文件夹。2.想知道谁没交作业,并好将其学号+姓名的方式发给任课老师。1.学习委员收集完学生实验报告,且有学生名单。

2024-09-19 21:58:59 342

原创 安装VScode+第一个前端代码

1.下载安装包——官网地址: https://code.visualstudio.com/#alt-downloads。- 谷歌浏览器 https://www.google.cn/chrome/index.html。5.安装完成后设置汉化版——拓展-搜索chinese-install-restart now。) - html:5 +回车 注释的快捷键: ctrl+/ html注释标签:<!2.双标签 有开头标签还有结束标签 区分: (结束符: /)- 由<> 包裹的关键字 称为 标签 例子:<标签名>

2024-09-19 20:43:07 281

selenium自动化爬虫爬取苏宁易购中连衣裙的数据

selenium自动化爬虫爬取苏宁易购中连衣裙的数据(包括标题、价格、标签、评价人数和店铺名),实现翻页获取,使用bs4解析获取的数据,并保存在excel

2024-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除