自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 C语言:幂函数生成乘方表

【代码】C语言:幂函数生成乘方表。

2024-04-18 23:16:10 68 1

原创 数据采集技术综合项目实战3(网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货满满

2.查看评论来源:打开网页源代码,按住“Ctrl+F”搜索相应评论,发现并无相关对应信息;但通过百度发现,B站的弹幕数据文件的url为“固定的url地址+视频的cid+.xml”。3.确定采集技术:由步骤二可见,每一个d标签内存储着每一条评论的具体信息,包括弹幕具体内容、出现时间点、用户ID等相关字段;分割数据:又步骤3可得,解析后得到的d标签内的p数据是字符串类型,这里(因为是用逗号分隔)则直接使用字符串的spilt方法对逗号进行分隔。然后定义数据框,将分割后的内容放入数据框中。

2024-04-13 23:25:38 1934

原创 C语言:用格雷戈里公式求π的近似值

【代码】C语言:用格雷戈里公式求π的近似值。

2024-04-10 22:29:25 452 1

原创 C语言:用数组求斐波那契数列

简介:斐波那契数列是一个经典的数学序列,其定义如下:第n个斐波那契数Fn​满足以下递推关系:F0=0,F1=1,Fn​=Fn−1​+Fn−2​,其中n≥2。

2024-04-08 16:45:51 162

原创 数据采集技术综合项目实战2(协程式网络爬虫+数据预处理+数据可视化)附带详细步骤说明,干货满满

爬取京东商品“苹果15”的评论包括好评、差评、中评以及不同的评论对应的用户名、设备颜色、设备内存大小、版本号、评论发布时间等字段,共3000条以上的评论数目进行数据预处理并进行可视化。

2024-04-06 14:52:45 2063 1

原创 中文常用停用词表3491个(可直接复制)

可用于词云图中去除停用词。

2024-04-05 16:09:02 284 1

原创 数据采集技术综合项目实战1(网络爬虫+数据预处理+数据可视化)

1.清洗脏数据:将数据采集部分的步骤5所保存data.csv文件的通过pandas库的read_csv()方法进行读取,被赋值到的变量主要使用两个方法这里主要用到padas库的drop_duplicates()方法(去除括号内的某列重复值)、isna()方法(当括号内的值为‘True’时,即取出括号内的值;最后通过show()方法来显示数据图表。5.初始化分布式计算框架:确定分配的cpu个数,将逐个获取到的数据框进行全拼接,并以第一个的数据框的第一行作为全数据框的第一行,最后将数据框保存为csv文件即可。

2024-03-24 17:04:13 1893 1

原创 创建和发布一个简单的Django项目

Django是一个用Python编写的Web应用程序框架,旨在帮助开发者快速构建功能完善的网站和Web应用。它提供了丰富的功能和工具,包括强大的数据库操作、认证系统、URL路由等,让开发变得更高效和快速。Django遵循MTV设计模式,支持ORM等特性,同时拥有完善的文档和活跃的社区支持。

2024-03-24 11:10:09 342 2

原创 使用Scrapy爬取去哪儿网游记数据并保存(超详细)

4.切换到项目qunar的根目录,输入命令:scrapy genspider qunarspider https://travel.qunar.com/travelbook/list.htm?结论:观察得出,此网页为静态网页,可直接利用正则表达式、Xpath等解析方式通过返回源代码直接获取相关信息。结论:观察可得到,当前网页以page进行分页,且每一个li标签存储着每一篇游记的相关信息。3.创建好后如下图所示,表示爬虫基本框架已经搭建完毕,即可写入脚本以及相应的爬虫规则。注意:需要完整源代码请私聊博主哦~

2024-03-19 20:50:39 649 2

原创 多线程数据采集爬取豆瓣top250电影榜

7.定义run方法,这里首先创建一个线程任务列表,再将获取网址队列作为任务参数放置任务列表(1个获取网址队列线程)中,再通过循环9次,创建9个解析网页源代码获取内容的多线程,最后创建一个保存json文件线程;4.使用网址队列的get()方法将队列中的网址逐个取出并发起HTTP请求,并进行源代码的提取,所以使用xpath来对目标信息进行提取,再将所采集的内容如步骤3放入内容队列。5.当所有信息提取完毕并且存入内容队列时,使用网址队列的task_done()方法,发出任务已完成信号。

2024-03-16 11:40:23 621

原创 使用Python的tkinter创建“小型”图书馆管理系统

5.对不同对象进行不同处理,本次项目目标人群分为图书馆管理员和学生用户,二者通过不同的身份登录既有不同的权限操作:1.通过Commbox.get()函数即可获得将要登录的用户身份(Charecter = str(self.chacterist_Combobox.get())2.再通过新创一个操作主窗口,通过tk.Label()函数、ttk.Combobox()函数、tk.Button()函数通过place()布局在主窗口相应位置生成相应tkinter组件即可。该原理同样适用于学生用户中。

2024-03-14 22:05:26 1075

原创 使用selenium实现黑马头条滑块自动登陆

(5)此处与别的网站不同的是,这里可以获取验证码背景的完整图片,只要在进行(1)的基础上,将验证码背景完整图片的默认“display:none”改为“display:block”即可将缺口修复,获得图片2。4. 当获取验证码时,定位验证码背景图片,此时需要获取两张图片:1.背景完整图片 2.不包含滑块但包含缺口图片,此处包含几个步骤。(1)利用修改样式原理将滑块标签进行修改,此处使用“display:none”在js中表示该标签效果,不显示,获得图片1。(4)通过计算可得出右下角的坐标。

2024-03-14 15:02:05 422 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除