Python爬虫学习笔记

最新推荐文章于 2024-04-02 17:25:31 发布

置顶

chenyyhh92

最新推荐文章于 2024-04-02 17:25:31 发布

阅读量2.7k

点赞数 2

分类专栏： CS基础

本文链接：https://blog.csdn.net/chenyyhh92/article/details/54909130

版权

本文详细介绍了Python爬虫的学习过程，从大数据时代的挑战出发，讲解了网络爬虫的工作原理和关键库如requests、BeautifulSoup4的使用。通过实例演示了如何抓取新浪新闻的标题、时间、内容、评论数等信息，并利用Pandas整理数据，最后将数据保存到SQLite数据库中。

摘要由CSDN通过智能技术生成

结构安排

一至十八是第一部分；

十九至二十六是第二部分。

一、大数据时代的挑战

数据抽取、转换、存储 (Data ETL)

原始资料：Raw Data
ETL脚本：ETL Scipt
结构化数据：Tidy Data

二、非结构化数据处理与网络爬虫

网页链接器(Web Connector)向目标网页发出请求(request)；
目标网页将响应(response)发送给网页链接器(Web Connector)；
对收到的响应进行资料剖析(Data Parser)，剖析成结构化数据；
将结构化数据存入数据中心(Data Center)

三、了解网络爬虫背后的秘密

浏览器内建的开发人员工具
requests
BeautifulSoup4 (注意，BeautifulSoup4和BeautifulSoup是不一样的)
jupyter

jupyter中编辑的文件会保存在用户的家目录下，例如在windows中就会是C:\Users\username

以Chrome为例，抓取前的分析步骤如图：

抓取前的分析.png

按F12进入到开发者工具；
点击Network；
刷新页面；
找到Doc；
找到左边Name这一栏的第一个(需要爬去的链接90%的情况都是第一个)；
点击右边的Headers；
找到请求的URL和请求方式。

四、撰写第一只网络爬虫

Requests库

网络资源撷取套件
改善Urllib2的缺点，让使用者以最简单的方式获取网络资源
可以使用REST操作存取网络资源

jupyter

使用jupyter来抓取网页并打印在浏览器中，再按Ctrl-F查找对应的内容，以确定我们要爬去的内容在该网页中。

HelloWorld

import requests
res = requests.get('http://www.sina.com.cn/')
res.encoding = 'utf-8'
print(res.text)

五、用BeautifulSoup4剖析网页元素

from bs4 import BeautifulSoup
html_sample = ' \
<html> \
<body> \
<h1 id="title">Hello World</h1> \
<a href="#" class="link">This is link1</a> \
<a href="# link2" class="link">This is link2</a> \
</body> \
</html>'

soup = BeautifulSoup(html_sample, 'html.parser')
print(soup.text)

六、BeautifulSoup基础操作

使用select找出含有h1标签的元素

soup = BeautifulSoup(html_sample)
header = soup.select('h1')
print(header)
print(header[0])
print(header[0].text)

使用select找出含有a的标签

soup = BeautifulSoup(html_sample, 'html.parser')
alink = soup.select('a')
print(alink)
for link in alink:
    print(link)
    print(link.txt)

使用select找出所有id为title的元素(id前面需要加#)

alink = soup.select('#title')
print(alink)

使用select找出所有class为link的元素(class前面需要加.)

soup = BeautifulSoup(html_sample)
for link in soup.select('.link'):
    print(link)

使用select找出所有a tag的href链接

alinks = soup.select('a')
for link in alinks:
    print(link['href']) # 原理：会把标签的属性包装成字典

最低0.47元/天解锁文章

chenyyhh92

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录