前言 百度搜索的内容一般包含标题、摘要、网址、时间信息,本次主要实现根据搜索整理30页左右百度的搜索条例成csv文档。 原理 百度爬虫比较简单,模拟浏览器访问就可以爬取到所要的数据,访问某个关键字第几页的网址构成为: "http://www.baidu.com/s?wd={}&pn={}".format(urllib.parse.quote(word),number) 之后就是解析对应的标签提取信息了。 因为要提取关键字,所以解析得到摘要后需要对摘要进行结巴