【爬虫】爬取百度搜索结果页面

最新推荐文章于 2024-04-23 18:06:15 发布

weixin_33976072

最新推荐文章于 2024-04-23 18:06:15 发布

阅读量1.5k

点赞数 1

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/sharpdeep/p/10629551.html

版权

今日看了一下爬虫，写了一个爬取百度搜索页面的小程序。可以在代码中改动搜索词，代码如下：

#coding=utf-8
#python version：2.7
#author:sharpdeep

import urllib
import urllib2
import re
from bs4 import BeautifulSoup as BS

baseUrl = 'http://www.baidu.com/s'
page = 1 #第几页
word = '穿戴设备'  #搜索关键词

data = {'wd':word,'pn':str(page-1)+'0','tn':'baidurt','ie':'utf-8','bsst':'1'}
data = urllib.urlencode(data)
url = baseUrl+'?'+data

try:
    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
except urllib2.HttpError,e:
    print e.code
    exit(0)
except urllib2.URLError,e:
    print e.reason
    exit(0)

html = response.read()
soup = BS(html)
td = soup.find_all(class_='f')

for t in td:
    print t.h3.a.get_text()
    print t.h3.a['href']

    font_str = t.find_all('font',attrs={'size':'-1'})[0].get_text()
    start = 0 #起始
    realtime = t.find_all('div',attrs={'class':'realtime'})
    if realtime:
        realtime_str = realtime[0].get_text()
        start = len(realtime_str)
        print realtime_str
    end = font_str.find('...')
    print font_str[start:end+3],'\n'

https://github.com/sharpdeep/CrawlerBaidu

转载于:https://www.cnblogs.com/sharpdeep/p/10629551.html

weixin_33976072

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_33976072 CSDN认证博客专家 CSDN认证企业博客

码龄9年

153: 原创

-: 周排名

148万+: 总排名

129万+: 访问

: 等级

7317: 积分

5714: 粉丝

217: 获赞

20: 评论

1456: 收藏

私信

关注

热门文章

最新评论

magento 2模块开发实例helloworld模块
cuiyuhui: 这篇文章里存在3个问题 1.Helloworld/etc/module.xml 文件格式有问 2.Helloworld/etc/frontend 这个文件夹命名错误 3.Helloworld/etc/frontend/routes.xml 这文件名命名错误新同学们要注意了
vue组件el-dialog重新执行mounted方法的技巧
qq_31612939: 更好的解决办法，dialog原生为了更快的体验，第一次打开dialog时，dialog内容不存在，新建时触发mounted等钩子，关闭时使用隐藏方式。隐藏dialog内组件仍然存在，所以第二次打开只是重新展示。不会触发mounted，el-dialog提供了属性destroy-on-close，值为boolean，关闭时销毁dialog中的元素
android invalidate 执行流程详解
Paak: 赞，今天发现一个以为invalidate是同步方法导致bug
密码正确无法登陆Linux系统
m0_59385416: 这个都登陆不进去了你们是怎么改的？？？
cxf调用WebService
wxs_123: 第四步能说完整点不

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。