自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(80)
  • 收藏
  • 关注

原创 windows虚拟环境搭建

将刚刚创建的django项目拖入pycharm中,点击manage.py文件,发现此时报错。#pip install virtualenvwrapper #非windows系统。#mkvirtualenv -p 真实python环境路径 虚拟环境文件夹名字。进入file——settings——Project。——inter解释器。虚拟环境默认会创建在家目录下的Envs路径下。workon #显示有哪些虚拟环境。activate # 启动虚拟环境。# 任意一个路径下退出虚拟环境。# 进入虚拟环境文件。

2024-11-12 19:14:00 545

原创 pandas——排序+处理缺失数据

根据某个唯一的列名进行排序,如果有其他相同列名则报错。排序默认使用升序排序,

2024-11-12 14:15:29 412

原创 pandas——对齐运算+函数应用

引言:对齐运算是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaN。

2024-11-05 20:31:07 339

原创 pandas——DataFrame

file.csv生成的file1.csv2,B3,C4,D。

2024-11-01 20:08:05 834

原创 pandas——数据结构

【代码】pandas——数据结构。

2024-10-29 12:40:22 600

原创 numpy——索引切片

【代码】numpy——索引切片。

2024-10-28 21:02:00 421

原创 numpy——数学运算

【代码】numpy——数学运算。

2024-10-28 19:26:27 567

原创 numpy——数组创建

shape 属性:维度大小。ndim 属性:维度个数。dtype 属性:数据类型。

2024-10-27 13:16:59 414

原创 爬取王者荣耀英雄资料数据

https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/505/505-bigskin-4.jpg ---(大)https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/504/504-bigskin-1.jpg--直接修改。4.通过对地址的分析观察 发现只需要替换英雄的id即可下载对应的英雄的皮肤图片。3.由于在英雄列表页是观察不到英雄的皮肤数据 所以需要进入英雄的详情页去观察。

2024-10-25 19:30:11 447

原创 scrapy案例——读书网列表页和详情页的爬取

5. follow:连接提取器提取的url地址对应的响应是否还会继续被rules中的规则进行提取,True表示会,Flase表示不会。4. callback :表示经过连接提取器提取出来的url地址响应的回调函数,可以没有,没有表示响应不会进行回调函数的处理。3. LinkExtractor:连接提取器,可以通过正则或者是xpath来进行url地址的匹配。1.爬取读书网中中国当代小说中的列表页中的书名、作者、书的图片和书本详情。2.爬取列表页中对应的详情页面的价格、出版社和出版时间。

2024-10-24 19:40:54 1052

原创 scrapy案例——当当网的爬取二

第二页 http://category.dangdang.com/pg2-cp01.03.41.00.00.00.html。1.使用scrapy爬虫技术爬取当当网中科幻小说的书籍数据,包括(图片、标题、作者和价格)#管道可以有很多个,因此管道有优先级 范围1-1000 值越小优先级越高。项目名称:当当网的爬取一——爬取科幻小说的书籍数据。2.将获取到的数据保存在本地josn文件中。6.将图片下载至本地books文件夹中。3.将图片保存在本地文件夹中。

2024-10-23 17:38:06 614

原创 scrapy案例——当当网的爬取一

1.使用scrapy爬虫技术爬取当当网中青春文学的书籍数据,包括(标题、现价、定价、作者、出版日期、出版社、书本详情和书本图片url)第二页 http://category.dangdang.com/pg2-cp01.01.00.00.00.00.html。第三页 http://category.dangdang.com/pg3-cp01.01.00.00.00.00.html。项目名称:当当网的爬取一——爬取青春文学的书籍数据。2.将获取到的数据保存在数据库中。

2024-10-22 20:23:12 594

原创 scrapy案例——豆瓣电影Top250的爬取

1.使用scrapy爬虫技术爬取豆瓣电影Top250的电影数据(包括排名、电影名称、导演、演员、url、评分)1.找到正确的数据吧,并复制正确的请求url。做好准备:开启管道、关闭君子协议、伪造浏览器。3.将爬取下来的数据保存在数据库中。项目:豆瓣电影Top250的爬取。2.解析数据:如title。2.实现分页爬取,共十页。

2024-10-20 18:33:52 691

原创 scrapy案例——链家租房数据的爬取

json_data = json.dumps(dict_data,ensure_ascii=False)+'\n'#ensure_ascii=False 不要让数据编程编码。这时运行结果item为空字典——则需要开开启管道才可写入数据——settings。link = scrapy.Field() # 价格。print('管道文件的item',item)price = scrapy.Field()#价格。name = scrapy.Field()#标题。#用完之后 关闭文件。#3.将数据打包 实例化类。

2024-10-19 20:19:29 1156

原创 爬虫——scrapy的基本使用

定义一个管道类重写管道类的process_item方法process_item方法处理完item之后必须返回给引擎# 爬虫文件中提取数据的方法每yield一次item,就会运行一次# 该方法为固定名称函数# 参数item默认是一个 <class 'mySpider.items.MyspiderItem'>类信息,需要处理成字典# 将返回的字典数据转为JSON数据# 写入JSON数据# 参数item:是爬虫文件中yield的返回的数据对象(引擎会把这个交给管道中的这个item参数)

2024-10-18 21:29:14 2009

原创 selenium案例——爬取哔哩哔哩排行榜

comment_counts = soup.select('.info .detail-state .data-box:nth-of-type(2)') # 评论量。play_counts = soup.select('.info .detail-state .data-box:nth-of-type(1)') # 播放量。up_names = soup.select('.info .up-name') # up主。ws.append(['标题','up主','播放量','评论量'])

2024-10-17 10:10:36 891

原创 selenium基本使用

窗口切换 switch_to_window(窗口ID) switch_to.window(窗口ID) (python3.8以上版本都支持,python3.7只支持后者写法)browser.find_element(By.LINK_TEXT,"新闻").click() # 通过.click()点击目标链接。find_element_by_partial_link_text 可以只写部分超链接文字。find_element_by_class_name 根据class的名字来定位。

2024-10-14 14:36:34 767

原创 selenium安装

1,安装selenium-- 命令:-- 网络不稳的请换源安装:1.查看谷歌浏览器版本打开谷歌浏览器——点击左侧三个点——点击帮助——点击关于Google chrome2.下载谷歌浏览器webdriver驱动打开百度,输入chrome webdriver,下载谷歌浏览器webdriver驱动或者点击https://www.cnblogs.com/aiyablog/articles/17948703#:~:text=chromedriv-- 根据自己谷歌版本选择驱动器-- 选择对应版本,如果没有对应版本选择跟

2024-10-13 10:32:13 991

原创 爬虫案例——网易新闻数据的爬取

print('==========', '当前是第{}页'.format(i))该网站属于异步加载网站——直接网页中拿不到,需要借助fidder抓包工具拿取。因为该网页不是常规的josn源码数据,所以需要进行一些处理。3.利用jsonpath解析数据。2.爬取所有数据(翻页参数)利用josnpath解析数据。1.爬取该新闻网站——()的数据,包括标题和链接。可以看到第一页请求网址。首页地址为第一页地址。

2024-10-12 09:19:05 1666

原创 requests案例——爬取微博的一级和二级评论

一级评论接口:https://m.weibo.cn/comments/hotflow?二级评论接口:https://m.weibo.cn/comments/hotFlowChild?max_id: 13883307764046392 #翻页参数---从第二页开始 (在上一页一级评论接口可以找到)max_id: 0 #二级翻页参数(在上一页评论接口中可以找到)print('-------二级评论-------')

2024-10-11 12:03:50 1188

原创 反爬机制——验证码识别

1.获取登录接口的请求地址2.获取解析验证码图片链接#解析图片链接 https://so.gushiwen.cn/RandCode.ashx3.将其保存在本地4.但由于验证码是动态的,每次都不一样,所以解决方案——session会话来维持#实例化session5.得到图片后,想要将其读取出来——需要用到超级鹰。

2024-10-10 12:33:22 1411

原创 爬虫工具——Fidder的安装

Headers —— 显示客户端发送到服务器的 HTTP 请求的 header,显示为一个分级视图,包含了 Web 客户端信息、Cookie、传输状态等。查看你的本机IP地址,在Fiddler的右上角有一个Online按钮,点击一下会显示你的IP信息。打开你的手机,找到你所连接的WIFI,长按选择修改网络,输入密码后往下拖动,然后选择wifi。XML —— 如果请求的 body 是 XML 格式,就是用分级的 XML 树来显示它。ImageVies —— 如果请求是图片资源,显示响应的图片。

2024-10-09 10:18:28 354

原创 爬虫案例——爬取腾讯社招

wb = workbook.Workbook() # 创建Excel对象。ws.append(['职称', '链接', '时间', '公司名称'])print("第{}页已经保存完毕!my_list = [z,l,s,g] # 以列表形式写入。4.保存数据:txt文本形式和excel文件两种形式。——异步(查看xhr)wb.save('腾讯社招.xlsx')4.删除不必要的,找到正确的(可删可不删)5.该网站反爬手段比较强,给其进行伪装。2.找到正确的数据包——看响应内容。1.爬取腾讯社招的数据(

2024-10-08 09:21:46 2396

原创 爬虫案例——爬取长沙房产网租房信息

price = s.find_all('span',{'class':'content__list--item-price'})#价格。content = s.find_all('p',{'class':'content__list--item--des'})#地址。print('==========','当前是第{}页'.format(i))包括租房标题、标题链接,价格和地址。refere参数:代表页面的来源。处理获取到的地址、价格和租房标题。翻页参数和refere参数。3.使用bs4解析数据。

2024-10-07 13:56:59 1041

原创 爬虫案例——爬取情话网数据

1.爬取情话网站中表白里面的所有句子(3.使用面向对象形发请求——创建一个类。4.将爬取下来的数据保存在数据库中。如此照推,详情页文本对应的解析语法。2.利用XPath来进行解析。

2024-10-06 13:48:56 1122

原创 爬虫——XPath基本用法

xpth解析(1)本地文件 etree.parse(2)服务器响应的数据 response.read().decode('utf-8') etree.HTML()

2024-10-05 18:04:14 1974

原创 requests案例——腾讯新闻数据的爬取

2.因为新闻都是实时更新的,所以虽然有161页,但是一般最后一页大多无数据,这会导致爬取数据错误,所以需要添加一个异常处理。1.检查一下使用的openpyxl是最新版本,因为这个问题可能已经在新版本中被修复。print(f"请求失败,状态码:{r.status_code}")1.利用requests方法爬取腾讯新闻的数据(包括新闻名字和对应新闻链接)print(f"请求异常:{e}")print(f"解析异常:{e}")3.将爬取下来的数据保存在excel文件中。4.利用jsonpath来解析获取的数据。

2024-10-05 14:33:42 885

原创 数据提取之JSON与JsonPATH

爬虫最常用1、数据抓取 - json.loads(html)将响应内容由: json 转为 python2、数据保存 - json.dump(item_list,f,ensure_ascii=False)将抓取的数据保存到本地 json文件抓取数据一般处理方式1、txt文件2、csv文件3、json文件4、MySQL数据库5、MongoDB数据库6、Redis数据库。

2024-10-04 11:11:07 1046

原创 爬虫——BS4基本用法

1.是一个高效的网页解析库,可以从HTML或XML文件中提取数据2.支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析3.就是一个非常强大的工具,爬虫利器4.一个灵感又方便的网页解析库,处理高效,支持多种解析器5.利用它就不用编写正则表达式也能方便的实现网页信息的抓取。

2024-10-03 17:05:07 895

原创 爬虫——同步与异步加载

同步模式--阻塞模式(就是会阻止你浏览器的一个后续加载)停止了后续的解析 因此停止了后续的文件加载(图像)当你不断往下滑刷新页面后,这时就会出现上面2中,类似的url地址,只不过他的offset会发生变化。---ajax加载(通过异步加载回来的数据 一般都是json数据)-----通过接口返回的数据(json)动了 ----- 同步--找数据包优先找all。未动 --异步--找数据包优先找xhr。---网页文本(html)----javascript渲染。---直接返回的网页文本。

2024-10-03 10:59:08 1238

原创 爬虫——爬取小音乐网站

从以上结果可以看出,此链接不可直接点击,缺少https://www.hifini.com/这一部分。1.发请求,获得网页源码 #1.和2是在一步的 发请求成功了之后就能直接获得网页源码。print("歌曲播放资源链接",song_link)第三步:再次像歌曲播放资源链接发请求 获得二进制数据,进行保存。print('歌名:',song_name)os.makedirs("歌曲")2.创建文件流,将歌曲保存在文件夹中。# print('歌曲信息',r)第二步:获取歌曲播放资源。#解析歌曲的播放组员。

2024-10-02 14:44:50 4246 1

原创 正则表达式(补充)

<a href="/4.mp3" singer="beyond">光辉岁月</a></li><li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>print(res.group()) # .group()获取匹配内容。<li data-view="2">一路有你

2024-10-02 09:41:56 1427

原创 爬虫——爬虫理论+request模块

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动的抓取互联网信息的程序。⼀句话——Requests是一个Python代码编写的HTTP请求库,方便在代码中模拟浏览器发送http请求a。http/https 协议 是一种无状态的协议,对事物处理无记忆功能,所以每次请求都是一个独立状态。原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做,也就是说万物皆可爬,可视即可爬。它比urllib更加方便,可以节约大量的工作,完全满足HTTP测试需求的库。

2024-10-01 17:22:02 2053

原创 前端——Ajax和jQuery

jQuery是JavaScript的工具库,对原生JavaScript中的DOM操作、事件处理、包括数据处理和Ajax技术等进行封装,提供更完善,更便捷的方法。

2024-10-01 13:10:41 1848

原创 前端——切换轮播图

学完前端js小知识后,动手操作的一个简单图片轮播图。

2024-09-30 18:29:59 477

原创 前端——DOM与BOM总结

DOM全称为 “Document Object Model”,文档对象模型,提供操作HTML文档的方法。(注:每个html文件在浏览器中都视为一篇文档,操作文档实际就是操作页面元素。当网页加载时,浏览器就会自动创建当前页面的文档对象模型(DOM)。在DOM中,文档的所有部分(例如元素、属性、文本等)都会被组织成一个树结构(类似于族谱),树中每一个分支的终点称为一个节点,每个节点都是一个对象。

2024-09-30 13:14:49 2119

原创 前端——css动画

keyframes +自定义动画名字0%-100% 就是动画的开始到结束 帧数 ——from to0% {20% {30% {100% {或者from {20% {30% {to {

2024-09-29 16:39:28 963

原创 前端——js补充

sessionStorage.setItem("宇智波厚度", "吊打一打七 + 干柿鬼鲛")localStorage.setItem("宇智波厚度", "吊打一打七 + 干柿鬼鲛")sessionStorage.setItem("宇智波厚度", "吊打一打七")localStorage.setItem("宇智波厚度", "吊打一打七")console.log(d.getMonth() + 1);

2024-09-29 09:29:07 1065

原创 前端——js函数+DOM对象

TN: 'div', innerText: '我是被宇智波厚度,构建出来的。', title: '我是被宇智波厚度,构建出来的。//将img元素作为app元素的最后一个子节点添加到DOM中。//这个方法接受两个参数:第一个是要插入的节点,第二个是参考节点(即新节点将被插入到这个参考节点之前的位置)//insertBefore 方法用于在指定的子节点之前插入一个节点(或一个新创建的节点)。//appendChild 方法用于将一个节点添加到父节点的子节点列表的末尾。// 子盒子 (判断数据类型)

2024-09-28 11:28:51 1041

原创 前端——js数组和对象

obj 来接收对象 例子: let 变量名={};//属性:属性值name: '落落',// 数据和数据之间要用逗号隔开breed: '银渐层',age: '1岁',like: ['猫条', '小鱼仔', '鸡胸肉']

2024-09-27 13:37:42 730

selenium自动化爬虫爬取苏宁易购中连衣裙的数据

selenium自动化爬虫爬取苏宁易购中连衣裙的数据(包括标题、价格、标签、评价人数和店铺名),实现翻页获取,使用bs4解析获取的数据,并保存在excel

2024-10-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除