自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 自动爬取小说并保存

这次项目主要利用requests库来获取内容,但是这东西在效率上相对较慢,当然比人工要快一点,要加快效率的话,可以研究研究异步爬虫或者scrapy爬虫;当然了,玩这个的时候还是要注意一下素质,不要一个劲儿的去搞人家,羊毛不能逮着一只薅。

2024-12-26 14:17:58 1613

原创 爬取下载歌曲-动态方法

使用selenium方法自动爬取下载歌曲

2024-11-27 09:07:22 668

原创 爬取歌曲-静态方法

然后具体的操作不做赘述,直接放完整代码,以做记录。

2024-11-25 10:33:58 533

原创 python-爬取网站天气数据-2

上篇记录了爬取静态的天气信息的过程,这次选择使用selenium库进行动态处理,这个库就是一个自动化处理的一个工具,可以模拟人操作电脑或者网页啥的,比如输入,点击,转换窗口啥的,因为网页上显示出来的图样、文字等内容都是由网页代码元素控制的,那selenium库就可以选择对应的代码元素来模拟人进行输入、点击之类的。首先我们会选择日期的下拉按钮,然后点击,会出来一堆日期,在这一堆日期里面进行选择我们想要的日期,选择后就会发现网页的天气信息回自动变换,而且也没有跳转新窗口;这一步我们就得到了信息的位置。

2024-11-21 09:49:50 747

原创 python-爬取网站天气数据-1

这里面我想要获得的天气数据如上图,我需要将这些数据爬取下来并保存为本地文件。

2024-11-19 10:26:19 648

原创 python爬虫-使用requests库和BeautifuSoup库爬取静态网页

可以看到内容保存在div标签下面,仔细观察发现前几年的也是在这个标签下面,只是位置不一样,此时这是静态网页,就可以用requests和BeautSoup进行处理了,要是在这里找不到所需内容,说明网站采取的是动态加载方法,以个人目前的水平来说,认为这两个库暂时处理不了,需要用到抓包技术,比如selenium库的自动化等;2、使用request和BeautifulSoup进行解析,具体使用方法可以在站内进行学习,有很多可以学习的内容;在对初始数据进行整理处理,得到自己想要的数据和格式;

2024-11-18 15:03:11 477

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除