刘大帅哥1-CSDN博客

原创自动爬取小说并保存

这次项目主要利用requests库来获取内容，但是这东西在效率上相对较慢，当然比人工要快一点，要加快效率的话，可以研究研究异步爬虫或者scrapy爬虫；当然了，玩这个的时候还是要注意一下素质，不要一个劲儿的去搞人家，羊毛不能逮着一只薅。

2024-12-26 14:17:58 1613

原创爬取下载歌曲-动态方法

使用selenium方法自动爬取下载歌曲

2024-11-27 09:07:22 668

原创爬取歌曲-静态方法

然后具体的操作不做赘述，直接放完整代码，以做记录。

2024-11-25 10:33:58 533

上篇记录了爬取静态的天气信息的过程，这次选择使用selenium库进行动态处理，这个库就是一个自动化处理的一个工具，可以模拟人操作电脑或者网页啥的，比如输入，点击，转换窗口啥的，因为网页上显示出来的图样、文字等内容都是由网页代码元素控制的，那selenium库就可以选择对应的代码元素来模拟人进行输入、点击之类的。首先我们会选择日期的下拉按钮，然后点击，会出来一堆日期，在这一堆日期里面进行选择我们想要的日期，选择后就会发现网页的天气信息回自动变换，而且也没有跳转新窗口；这一步我们就得到了信息的位置。

2024-11-21 09:49:50 747

原创 python-爬取网站天气数据-1

这里面我想要获得的天气数据如上图，我需要将这些数据爬取下来并保存为本地文件。

2024-11-19 10:26:19 648

原创 python爬虫-使用requests库和BeautifuSoup库爬取静态网页

可以看到内容保存在div标签下面，仔细观察发现前几年的也是在这个标签下面，只是位置不一样，此时这是静态网页，就可以用requests和BeautSoup进行处理了，要是在这里找不到所需内容，说明网站采取的是动态加载方法，以个人目前的水平来说，认为这两个库暂时处理不了，需要用到抓包技术，比如selenium库的自动化等；2、使用request和BeautifulSoup进行解析，具体使用方法可以在站内进行学习，有很多可以学习的内容；在对初始数据进行整理处理，得到自己想要的数据和格式；

2024-11-18 15:03:11 477