![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫实战
文章平均质量分 91
湘大小菜鸡
我是一名正在湘潭大学攻读人工智能专业的开发者,拥有丰富的实践经验和参与过的工作、科研任务。我对于人工智能领域的热情与探索驱使着我不断深入学习和实践,以在这个充满创新与挑战的领域取得更大的成就。
我坚信技术的力量可以改变世界。我会继续不断学习、探索,积极参与更多的项目和任务,拓宽自己的视野,为人工智能领域的创新发展贡献一份力量。同时,我也期待着能够在大学的学习中,与各位同仁一起交流、合作,共同推动人工智能领域的进步。
展开
-
爬虫实战(三)
需要注意的是,爬取多个页面时,我们需要使用循环来遍历每个页面,并将每个页面的内容合并到同一个列表中。通常,我们可以通过对页面的HTML代码进行解析,提取出我们需要的信息,并保存到本地文件或数据库中。随着互联网的发展,数据量的爆炸式增长,单机爬虫已经无法满足大规模数据爬取的需求,分布式爬虫成为了一种常见的解决方案。百度搜索是一个非常常见的搜索引擎,我们可以使用Python的requests库和BeautifulSoup库来爬取百度搜索结果页面,并提取搜索结果的标题、链接和描述信息。原创 2023-03-17 22:32:41 · 10238 阅读 · 5 评论 -
爬虫技术进阶(二)
需要注意的是,PhantomJS已经停止了更新和维护,因此在实际使用时,建议使用更加先进的技术,例如Chrome Headless、Firefox Headless等。由于动态网页的内容是通过JavaScript动态生成的,爬虫在获取源代码时只能获取到未经渲染的HTML代码,无法获取到动态生成的内容。需要注意的是,验证码识别技术并不是一种通用的技术,它的效果受到验证码的复杂程度、图像质量、背景干扰等因素的影响。Scrapy是Python编写的一个开源的、高层次的、基于协议的、可扩展的爬虫框架。原创 2023-03-17 20:42:27 · 798 阅读 · 1 评论