- 博客(6)
- 收藏
- 关注
原创 自动爬取小说并保存
这次项目主要利用requests库来获取内容,但是这东西在效率上相对较慢,当然比人工要快一点,要加快效率的话,可以研究研究异步爬虫或者scrapy爬虫;当然了,玩这个的时候还是要注意一下素质,不要一个劲儿的去搞人家,羊毛不能逮着一只薅。
2024-12-26 14:17:58
1613
原创 python-爬取网站天气数据-2
上篇记录了爬取静态的天气信息的过程,这次选择使用selenium库进行动态处理,这个库就是一个自动化处理的一个工具,可以模拟人操作电脑或者网页啥的,比如输入,点击,转换窗口啥的,因为网页上显示出来的图样、文字等内容都是由网页代码元素控制的,那selenium库就可以选择对应的代码元素来模拟人进行输入、点击之类的。首先我们会选择日期的下拉按钮,然后点击,会出来一堆日期,在这一堆日期里面进行选择我们想要的日期,选择后就会发现网页的天气信息回自动变换,而且也没有跳转新窗口;这一步我们就得到了信息的位置。
2024-11-21 09:49:50
747
原创 python爬虫-使用requests库和BeautifuSoup库爬取静态网页
可以看到内容保存在div标签下面,仔细观察发现前几年的也是在这个标签下面,只是位置不一样,此时这是静态网页,就可以用requests和BeautSoup进行处理了,要是在这里找不到所需内容,说明网站采取的是动态加载方法,以个人目前的水平来说,认为这两个库暂时处理不了,需要用到抓包技术,比如selenium库的自动化等;2、使用request和BeautifulSoup进行解析,具体使用方法可以在站内进行学习,有很多可以学习的内容;在对初始数据进行整理处理,得到自己想要的数据和格式;
2024-11-18 15:03:11
477
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人