python5.网络爬虫

# 爬虫的流程和常用包
# import requests 发送请求
# import re     正则表达式
# import bs4   解析源代码

# requests.get  -- 基于URL,发送网络请求
# re.findall   -- 基于正则表达式,搜寻目标数据
# bs4.BeautifulSoup  -- 对HTML源代码做解析,便于目标数据的拆解
#对红牛公司进行网络爬虫
import requests
import re
import bs4

url = r'http://www.redbull.com.cn/about/branch'
requests = requests.get(url)
requests  #返回值以2开头说明是正确的
requests.text   #提取为字符串

soup = bs4.BeautifulSoup(requests.text)  #转换为soup格式
company = re.findall('<h2>(.*?)</h2>', requests.text)
address = [i.text for i in soup.findAll(name = 'p', attrs = {
   'class' : 'mapIco'})]
#findAll为soup中的一个方法
email = [i.text for i in soup.findAll(name = 'p', attrs = {
   'class' : 'mailIco'})]
tel = [i.text for i in soup.findAll(name = 'p', attrs = {
   'class' : 'telIco'})]

import pandas as pd
pd.DataFrame({
   'company' : company, 'address' : address, 'email' : email, 'tel' : tel})
company address email tel
0 红牛杭州分公司 杭州市上城区庆春路29号远洋大厦11楼A座 310009 0571-87045279/7792
1 红牛广西分公司 南宁市金湖路59号地王国际商会中心50层D1、E1室 530021 0771-5592660/61/62
2 红牛广州分公司 广东省广州市天河珠江新城华夏路10号富力中心写字楼1904房 510623 020-38927681
3 红牛深圳分公司 广东省深圳市福田区福华三路88号财富大厦39楼BCD 518048 0755-23962001
4 红牛湖南分公司 湖南省长沙市天心区劳动西路289号嘉盛国际广场1626室 410015 0731-88708080/8081
5 红牛福建分公司 福建省福州市台江区广达路68号金源广场东区15楼BC 350005 0591-83362015
6 红牛东莞分公司 东莞市南城区石竹路3号广发金融大厦10楼01室 523071 0769-23184981
7 红牛四川分公司 四川省成都市武侯区人民南路4段27号商鼎国际1栋1单元1201室 610041 028-85226292
8 红牛湖北分公司 武汉市东西湖区金银湖路18号财富大厦13楼 430048 027-63370775/63370772
9 红牛云南分公司 云南省昆明市青年路389号志远大厦13楼A-2号 650021 0871-3100721
10 红牛贵州分公司
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值