- 博客(12)
- 收藏
- 关注
原创 数据采集技术综合项目实战3(网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货满满
2.查看评论来源:打开网页源代码,按住“Ctrl+F”搜索相应评论,发现并无相关对应信息;但通过百度发现,B站的弹幕数据文件的url为“固定的url地址+视频的cid+.xml”。3.确定采集技术:由步骤二可见,每一个d标签内存储着每一条评论的具体信息,包括弹幕具体内容、出现时间点、用户ID等相关字段;分割数据:又步骤3可得,解析后得到的d标签内的p数据是字符串类型,这里(因为是用逗号分隔)则直接使用字符串的spilt方法对逗号进行分隔。然后定义数据框,将分割后的内容放入数据框中。
2024-04-13 23:25:38 1934
原创 C语言:用数组求斐波那契数列
简介:斐波那契数列是一个经典的数学序列,其定义如下:第n个斐波那契数Fn满足以下递推关系:F0=0,F1=1,Fn=Fn−1+Fn−2,其中n≥2。
2024-04-08 16:45:51 162
原创 数据采集技术综合项目实战2(协程式网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货满满
爬取京东商品“苹果15”的评论包括好评、差评、中评以及不同的评论对应的用户名、设备颜色、设备内存大小、版本号、评论发布时间等字段,共3000条以上的评论数目进行数据预处理并进行可视化。
2024-04-06 14:52:45 2063 1
原创 数据采集技术综合项目实战1(网络爬虫+数据预处理+数据可视化)
1.清洗脏数据:将数据采集部分的步骤5所保存data.csv文件的通过pandas库的read_csv()方法进行读取,被赋值到的变量主要使用两个方法这里主要用到padas库的drop_duplicates()方法(去除括号内的某列重复值)、isna()方法(当括号内的值为‘True’时,即取出括号内的值;最后通过show()方法来显示数据图表。5.初始化分布式计算框架:确定分配的cpu个数,将逐个获取到的数据框进行全拼接,并以第一个的数据框的第一行作为全数据框的第一行,最后将数据框保存为csv文件即可。
2024-03-24 17:04:13 1893 1
原创 创建和发布一个简单的Django项目
Django是一个用Python编写的Web应用程序框架,旨在帮助开发者快速构建功能完善的网站和Web应用。它提供了丰富的功能和工具,包括强大的数据库操作、认证系统、URL路由等,让开发变得更高效和快速。Django遵循MTV设计模式,支持ORM等特性,同时拥有完善的文档和活跃的社区支持。
2024-03-24 11:10:09 342 2
原创 使用Scrapy爬取去哪儿网游记数据并保存(超详细)
4.切换到项目qunar的根目录,输入命令:scrapy genspider qunarspider https://travel.qunar.com/travelbook/list.htm?结论:观察得出,此网页为静态网页,可直接利用正则表达式、Xpath等解析方式通过返回源代码直接获取相关信息。结论:观察可得到,当前网页以page进行分页,且每一个li标签存储着每一篇游记的相关信息。3.创建好后如下图所示,表示爬虫基本框架已经搭建完毕,即可写入脚本以及相应的爬虫规则。注意:需要完整源代码请私聊博主哦~
2024-03-19 20:50:39 649 2
原创 多线程数据采集爬取豆瓣top250电影榜
7.定义run方法,这里首先创建一个线程任务列表,再将获取网址队列作为任务参数放置任务列表(1个获取网址队列线程)中,再通过循环9次,创建9个解析网页源代码获取内容的多线程,最后创建一个保存json文件线程;4.使用网址队列的get()方法将队列中的网址逐个取出并发起HTTP请求,并进行源代码的提取,所以使用xpath来对目标信息进行提取,再将所采集的内容如步骤3放入内容队列。5.当所有信息提取完毕并且存入内容队列时,使用网址队列的task_done()方法,发出任务已完成信号。
2024-03-16 11:40:23 621
原创 使用Python的tkinter创建“小型”图书馆管理系统
5.对不同对象进行不同处理,本次项目目标人群分为图书馆管理员和学生用户,二者通过不同的身份登录既有不同的权限操作:1.通过Commbox.get()函数即可获得将要登录的用户身份(Charecter = str(self.chacterist_Combobox.get())2.再通过新创一个操作主窗口,通过tk.Label()函数、ttk.Combobox()函数、tk.Button()函数通过place()布局在主窗口相应位置生成相应tkinter组件即可。该原理同样适用于学生用户中。
2024-03-14 22:05:26 1075
原创 使用selenium实现黑马头条滑块自动登陆
(5)此处与别的网站不同的是,这里可以获取验证码背景的完整图片,只要在进行(1)的基础上,将验证码背景完整图片的默认“display:none”改为“display:block”即可将缺口修复,获得图片2。4. 当获取验证码时,定位验证码背景图片,此时需要获取两张图片:1.背景完整图片 2.不包含滑块但包含缺口图片,此处包含几个步骤。(1)利用修改样式原理将滑块标签进行修改,此处使用“display:none”在js中表示该标签效果,不显示,获得图片1。(4)通过计算可得出右下角的坐标。
2024-03-14 15:02:05 422 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人