python抓取百度搜索结果

最新推荐文章于 2024-07-29 21:31:04 发布

A8572785

最新推荐文章于 2024-07-29 21:31:04 发布

阅读量1w

点赞数

分类专栏： python 学习

本文链接：https://blog.csdn.net/A8572785/article/details/10016377

版权

该Python脚本用于抓取百度搜索引擎的搜索结果。它使用BeautifulSoup库解析HTML，循环遍历并提取每页前10条结果的关键信息，包括关键字和链接，并将这些信息写入result.txt文件。程序首先构造搜索URL，然后打开并读取每个页面，寻找带有关键字和链接的元素。最后，获取下一页链接，直到完成10页的抓取。

摘要由CSDN通过智能技术生成

# -*- coding: utf-8 -*-
#!/usr/bin/env python
#抓取百度搜索结果
import sys
import re 
import urllib2

from BeautifulSoup import BeautifulSoup

def search(key):
        search_url='http://www.baidu.com/s?wd=key&rsv_bp=0&rsv_spt=3&rsv_n=2&inputT=6391' 
        req=urllib2.urlopen(search_url.replace('key',key)) 
        result=[]  
        #循环抓取10页结果进行解析
        for count in range(10):
                html=req.read()
                soup=BeautifulSoup(html)
    
                file = open("result.txt",'a')
                
                content  = soup.findAll('table',id=re.compile("\d"))
                num = len(content)
                
                for i in range(num):
                    #先解析出来内容
                    p_str  = content[i].find('a')
                    #提取关键字
                    if p_str.em: