Python爬虫——小白笔记(一)

目录

爬虫是什么?

页面结构介绍

附加HTML内容

爬虫核心

爬虫的用途

爬虫分类

通用爬虫       

聚焦爬虫

反爬手段

User-Agent

代理IP

验证码访问

动态加载网页     

数据加密


爬虫是什么?

如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据就是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的数据。

简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一憧楼里不知疲倦地爬来爬去。

解释1:通过一个程序,根据Url<网址/域名>(http://www.taobao.com)进行爬取网页,获取有用信息

解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息

页面结构介绍

举个例子:我们打开京东网站,我们要的只是页面中的部分数据;假如我们只想获取左边一栏的数据,看看京东都卖哪些东西;

鼠标右键->检查

 就会出现一下界面

 我们可以看到右边有很多ul,li,a...标签

附加HTML内容

打开pycharm,新建一个HTML文件

建好后是这样,body之间可嵌套table,table中可嵌套tr(行),tr中嵌套td(列);

在body之间我们可以输入一些东西(建表),<tr></tr>快捷键:输入tr,按Tab键;其他同理。

选择左上角谷歌浏览器,我们将会看到这样一个表格:

table 表格
tr  行
td  列
width   表格宽度
height  表格高度
border  表格边框

在<table></table>下建一个<ul>,ul是无序列表,ul下嵌套li

 刷新Chrome中的界面,如下:

除ul无序列表外,有序列表是ol ,同样ol下嵌套li

 刷新Chrome中的界面,如下:

除此之外,我们还观察到京东网页里面有很多a标签 

  刷新Chrome中的界面,如下:

点击菜鸟,我们就跳转到了菜鸟教程页面中; 

爬虫核心

  1. 爬取网页:爬取整个网页,包含了网页中所有内容 
  2. 解析数据:将网页中你得到的数据进行解析
  3. 难点:爬虫和反爬虫之间的博弈 (要数据:爬虫;不给数据:反爬虫)

爬虫的用途

  1. 数据分析/人工数据集
  2. 社交软件冷启动     APP冷启动是什么意思? - 知乎 (zhihu.com)
  3. 舆情监控     
  4. 竞争对手监控

爬虫分类

通用爬虫       

  1. 实例:搜索引擎(百度、搜狗、谷歌等)
  2. 功能:访问网页->抓取数据->数据存储->数据处理->提供检索服务
  3. robots协议:Robots协议(爬虫协议、机器人协议) - stardsd - 博客园 (cnblogs.com)
  4. 网站排名(SEO):①根据pagerank算法值进行排名(参考各网站流量,点击率等指标);②百度竞价排名(出价高的网页排前面)
  5. 缺点:①抓取的数据大多是无用的;②不能根据用户的需求来精准获取数据

聚焦爬虫

  1. 功能:根据需求,实现爬虫程序,抓取需要的数据
  2. 设计思路:
    1. 确定要爬取的url——如何获取url
    2. 模拟浏览器通过http协议访问url,获取服务器返回的HTML代码——如何访问
    3. 解析html字符串(根据一定规则提取需要的数据)——如何解析

反爬手段

User-Agent

User Agent中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

代理IP

  1. 西次代理 
  2. 快代理
    1. 什么是高匿名、匿名和透明代理?它们有什么区别?
      1. 使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。        
      2. 使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。
      3. 使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP。

验证码访问

  1. 打码平台
    1. 云打码平台...

动态加载网页     

网站返回的是js数据  并不是网页的真实数据

  • selenium驱动真实的浏览器发送请求

数据加密

  • 分析js代码

 


 参考学习:尚硅谷Python爬虫教程小白零基础速通

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是一个简单的 Python 爬虫实现,用于从北京租房信息网站上爬取租房信息并将其导入到 Excel 文件中。 首先,我们需要安装以下 Python 库: - requests:用于发送 HTTP 请求和获取网页内容。 - Beautiful Soup:用于解析 HTML 和 XML 网页内容。 - openpyxl:用于操作 Excel 文件。 可以使用 pip 命令进行安装: ``` pip install requests beautifulsoup4 openpyxl ``` 接下来,我们需要编写 Python 代码: ```python import requests from bs4 import BeautifulSoup from openpyxl import Workbook # 发送 HTTP 请求并获取网页内容 url = 'https://bj.zu.anjuke.com/fangyuan/p1/' response = requests.get(url) html = response.text # 使用 Beautiful Soup 解析网页内容 soup = BeautifulSoup(html, 'html.parser') houses = soup.select('.zu-itemmod') # 创建 Excel 文件并添加表头 wb = Workbook() ws = wb.active ws.append(['标题', '链接', '小区', '面积', '租金']) # 遍历租房信息并将其添加到 Excel 文件中 for house in houses: title = house.select('.zu-info h3 a')[0].text.strip() link = house.select('.zu-info h3 a')[0]['href'] community = house.select('.details-item')[0].text.strip() area = house.select('.details-item')[1].text.strip() price = house.select('.zu-side strong')[0].text.strip() ws.append([title, link, community, area, price]) # 保存 Excel 文件 wb.save('beijing_rent.xlsx') ``` 该爬虫程序将会从北京租房信息网站的第一页开始爬取租房信息,包括标题、链接、小区、面积和租金,并将其添加到 Excel 文件中。你可以根据需要修改代码以实现更多功能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值