- 博客(9)
- 收藏
- 关注
原创 【网络爬虫篇】数据采集技术综合项目实战3(网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货满满
本文是针对B站上某一部电影的弹幕数据进行采集,并通过采集到的数据进行预处理、可视化操作,挖掘出用户每周观看电影的习惯以及用户的评论特点、电影主题。
2024-04-13 23:25:38
2884
11
原创 【网络爬虫篇】数据采集技术综合项目实战2(协程式网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货满满
本文是针对京东商品“苹果15”的评论数据采集,包括好评、差评、中评以及不同的评论对应的用户名、设备颜色、设备内存大小、版本号、评论发布时间等字段,共3000条以上的评论数目进行数据预处理并进行可视化。挖掘该产品受客户喜爱的特性。
2024-04-06 14:52:45
2312
1
原创 【网络爬虫篇】数据采集技术综合项目实战1(网络爬虫+数据预处理+数据可视化)
本文主要是针对我国农业网之水稻详情的数据采集,并通过数据预处理、数据可视化技术挖掘出我国对水稻贡献最多的城市、企业。
2024-03-24 17:04:13
2758
1
原创 创建和发布一个简单的Django项目
Django是一个用Python编写的Web应用程序框架,旨在帮助开发者快速构建功能完善的网站和Web应用。它提供了丰富的功能和工具,包括强大的数据库操作、认证系统、URL路由等,让开发变得更高效和快速。Django遵循MTV设计模式,支持ORM等特性,同时拥有完善的文档和活跃的社区支持。
2024-03-24 11:10:09
435
2
原创 【网络爬虫篇】使用Scrapy爬取去哪儿网游记数据并保存(超详细)
4.切换到项目qunar的根目录,输入命令:scrapy genspider qunarspider https://travel.qunar.com/travelbook/list.htm?结论:观察得出,此网页为静态网页,可直接利用正则表达式、Xpath等解析方式通过返回源代码直接获取相关信息。结论:观察可得到,当前网页以page进行分页,且每一个li标签存储着每一篇游记的相关信息。3.创建好后如下图所示,表示爬虫基本框架已经搭建完毕,即可写入脚本以及相应的爬虫规则。注意:需要完整源代码请私聊博主哦~
2024-03-19 20:50:39
1101
3
原创 【网络爬虫篇】多线程数据采集爬取豆瓣top250电影榜
7.定义run方法,这里首先创建一个线程任务列表,再将获取网址队列作为任务参数放置任务列表(1个获取网址队列线程)中,再通过循环9次,创建9个解析网页源代码获取内容的多线程,最后创建一个保存json文件线程;4.使用网址队列的get()方法将队列中的网址逐个取出并发起HTTP请求,并进行源代码的提取,所以使用xpath来对目标信息进行提取,再将所采集的内容如步骤3放入内容队列。5.当所有信息提取完毕并且存入内容队列时,使用网址队列的task_done()方法,发出任务已完成信号。
2024-03-16 11:40:23
865
原创 使用Python的tkinter创建“小型”图书馆管理系统
5.对不同对象进行不同处理,本次项目目标人群分为图书馆管理员和学生用户,二者通过不同的身份登录既有不同的权限操作:1.通过Commbox.get()函数即可获得将要登录的用户身份(Charecter = str(self.chacterist_Combobox.get())2.再通过新创一个操作主窗口,通过tk.Label()函数、ttk.Combobox()函数、tk.Button()函数通过place()布局在主窗口相应位置生成相应tkinter组件即可。该原理同样适用于学生用户中。
2024-03-14 22:05:26
1376
原创 【网络爬虫篇】使用Selenium实现黑马头条滑块自动登陆
本文章主要是使用简单的js操作以及相关的滑动算法和Selenium的相关操作针实现对“黑马头条”的滑块的自动登录
2024-03-14 15:02:05
564
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人