爬虫实战_湘大小菜鸡的博客-CSDN博客

爬虫实战

关注

文章平均质量分 91

关注数：文章数：2 文章阅读量：11033 文章收藏量：54

作者: 湘大小菜鸡

我是一名正在湘潭大学攻读人工智能专业的开发者，拥有丰富的实践经验和参与过的工作、科研任务。我对于人工智能领域的热情与探索驱使着我不断深入学习和实践，以在这个充满创新与挑战的领域取得更大的成就。我坚信技术的力量可以改变世界。我会继续不断学习、探索，积极参与更多的项目和任务，拓宽自己的视野，为人工智能领域的创新发展贡献一份力量。同时，我也期待着能够在大学的学习中，与各位同仁一起交流、合作，共同推动人工智能领域的进步。

展开

爬虫实战（三）

需要注意的是，爬取多个页面时，我们需要使用循环来遍历每个页面，并将每个页面的内容合并到同一个列表中。通常，我们可以通过对页面的HTML代码进行解析，提取出我们需要的信息，并保存到本地文件或数据库中。随着互联网的发展，数据量的爆炸式增长，单机爬虫已经无法满足大规模数据爬取的需求，分布式爬虫成为了一种常见的解决方案。百度搜索是一个非常常见的搜索引擎，我们可以使用Python的requests库和BeautifulSoup库来爬取百度搜索结果页面，并提取搜索结果的标题、链接和描述信息。

原创 2023-03-17 22:32:41 · 10238 阅读 · 5 评论
爬虫技术进阶（二）

需要注意的是，PhantomJS已经停止了更新和维护，因此在实际使用时，建议使用更加先进的技术，例如Chrome Headless、Firefox Headless等。由于动态网页的内容是通过JavaScript动态生成的，爬虫在获取源代码时只能获取到未经渲染的HTML代码，无法获取到动态生成的内容。需要注意的是，验证码识别技术并不是一种通用的技术，它的效果受到验证码的复杂程度、图像质量、背景干扰等因素的影响。Scrapy是Python编写的一个开源的、高层次的、基于协议的、可扩展的爬虫框架。

原创 2023-03-17 20:42:27 · 798 阅读 · 1 评论

爬虫实战

作者: 湘大小菜鸡

爬虫实战（三）

爬虫技术进阶（二）