python5.网络爬虫

最新推荐文章于 2021-11-21 17:39:37 发布

Henry Zhao

最新推荐文章于 2021-11-21 17:39:37 发布

阅读量989

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/vastz/article/details/107808620

版权

本文深入探讨Python网络爬虫的实现，从基础的HTTP请求到复杂的网页解析，包括使用requests库发送请求，BeautifulSoup解析HTML，以及如何处理反爬策略如验证码和IP限制。通过实例展示如何爬取并存储数据，帮助读者掌握网络爬虫的基本技巧。

摘要由CSDN通过智能技术生成

# 爬虫的流程和常用包
# import requests 发送请求
# import re     正则表达式
# import bs4   解析源代码

# requests.get  -- 基于URL，发送网络请求
# re.findall   -- 基于正则表达式，搜寻目标数据
# bs4.BeautifulSoup  -- 对HTML源代码做解析，便于目标数据的拆解

#对红牛公司进行网络爬虫
import requests
import re
import bs4

url = r'http://www.redbull.com.cn/about/branch'
requests = requests.get(url)
requests  #返回值以2开头说明是正确的
requests.text   #提取为字符串

soup = bs4.BeautifulSoup(requests.text)  #转换为soup格式
company = re.findall('<h2>(.*?)</h2>', requests.text)
address = [i.text for i in soup.findAll(name = 'p', attrs = {
   'class' : 'mapIco'})]
#findAll为soup中的一个方法
email = [i.text for i in soup.findAll(name = 'p', attrs = {
   'class' : 'mailIco'})]
tel = [i.text for i in soup.findAll(name = 'p', attrs = {
   'class' : 'telIco'})]

import pandas as pd
pd.DataFrame({
   'company' : company, 'address' : address, 'email' : email, 'tel' : tel})

	company	address	email	tel
0	红牛杭州分公司	杭州市上城区庆春路29号远洋大厦11楼A座	310009	0571-87045279/7792
1	红牛广西分公司	南宁市金湖路59号地王国际商会中心50层D1、E1室	530021	0771-5592660/61/62
2	红牛广州分公司	广东省广州市天河珠江新城华夏路10号富力中心写字楼1904房	510623	020-38927681
3	红牛深圳分公司	广东省深圳市福田区福华三路88号财富大厦39楼BCD	518048	0755-23962001
4	红牛湖南分公司	湖南省长沙市天心区劳动西路289号嘉盛国际广场1626室	410015	0731-88708080/8081
5	红牛福建分公司	福建省福州市台江区广达路68号金源广场东区15楼BC	350005	0591-83362015
6	红牛东莞分公司	东莞市南城区石竹路3号广发金融大厦10楼01室	523071	0769-23184981
7	红牛四川分公司	四川省成都市武侯区人民南路4段27号商鼎国际1栋1单元1201室	610041	028-85226292
8	红牛湖北分公司	武汉市东西湖区金银湖路18号财富大厦13楼	430048	027-63370775/63370772
9	红牛云南分公司	云南省昆明市青年路389号志远大厦13楼A－2号	650021	0871-3100721
10	红牛贵州分公司