python实现简单爬虫百度首页_python简单爬虫

一段抓取互联网信息的程序

可以爬去各种网络内容对自己的信息进行扩展或者扩充。

工具/原料

python

网页解析器

1

从网页中提取有价值的数据

23fd63c5cf672b5fc2c35d223314f4d0b40327d9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

2

网页解析器分类

(1)正则表达式

(2)Html.parser

(3)Beautiful Soup

(4)lxml

b442d6d246fe474edd066b0bb0ef354f51b81fd9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3

结构化解析-DOM(Document Object Model)树

51f9aa3ea8db574addb7cb28a7f7dfb2dd1917d9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

Beautiful Soup安装

1

去百度官网搜索,Beautiful Soup然后解压到python文件夹里就可以使用了

cf6d451b1edef4dc90bc4bab45ecd3d968750cd9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

Beautiful Soup 语法

1

从根节点开始索引,然后依次向下查找

58021a0148fe1e4266ee5c65c2299a88381303d9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

2

举个列子

bf6e59704618dfdaa3be633289214f57925677d9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

3

创建Beautiful Soup对象

974a2f21056104a3066cdb1a63d7592ae2ef6bd9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

4

结点的搜索

1570c1b6326c5766c44a5ae7a4632385e13661d9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

5

访问结点内容

e177fc9147e833e05cf765b730ea3e86314859d9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

代码编写

1

查询所有a标签里的内容

6002c9d4483104eb982207bb092b74ee1d324ed9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

1d735518512c8cf1ae227e87c384cde34a2c46d9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

2

获取一行编码

cca2552c56ee7b7ffb8b24c16ef4fcf5ef0d41d9.jpg?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_500%2Climit_1

END

经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。

举报作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。

展开阅读全部

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值