Python学习笔记（八）简单网络数据获取

最新推荐文章于 2022-02-05 17:37:47 发布

嘘嘘的小粥

最新推荐文章于 2022-02-05 17:37:47 发布

阅读量272

点赞数

分类专栏：学习笔记入门文章标签： python

本文链接：https://blog.csdn.net/qq_43063685/article/details/105787811

版权

学习笔记同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

入门

18 篇文章 0 订阅

订阅专栏

Python学习笔记（八）网络数据获取初级

一、如何获取网络数据
二、抓取
三、解析

一、如何获取网络数据

抓取网页、解析网页内容

二、抓取

（1）urllib内建模块

（2）Request第三方库

Requests库是更简单、方便和人性化的Python HTTP第三方库
Requests库官网：http://www.python-requests.org/
基本方法

函数	含义
requests.get()	请求获取指定URL位置的资源，对应HTTP协议的GET方法

//获取非动态生成信息
import requests
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
url='https://book.douban.com/subject/1762527/'
r=requests.get(url,header=header)
r.status_code	//查看操作状态码，200为正常
r.text		//查看爬取信息

（3）Scrapy框架

三、解析

（1）BeautifulSoup库

BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库
官方网站：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

import requests
from bs4 import BeautifulSoup
url = 'https://book.douban.com/subject/1762527/comments/'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
cont = request.get(url,headers=headers)
soup = BeautifulSoup(cont.text,'lxml')
pattern = soup.find_all('span','short')
for item in pattern:
	print(item.string)

（2）re模块

re正则表达式模块进行各类正则表达式处理
参考网站：https://docs.python.org/3.5/library/re.html

import requests
import re
from bs4 import BeautifulSoup
url = 'https://book.douban.com/subject/1762527/comments/'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
cont = request.get(url,headers=headers)
soup = BeautifulSoup(cont.text,'lxml')
pattern = soup.find_all('span','short')
for item in pattern:
	print(item.string)
pattern_s = re.compile('<span class="user-stars allstar(.*) rating" title="推荐"></span>')
p = re.findall(pattern_s,cont.text)
s = 0
for star in p:
	s += int(start)
print(s)

（3）列表处理小例子

def clean_list(lst):
	clean_list=[]
	for item in lst:
		for c in item:
			if c.isalpha()!=True:
				item=item.replace(c,'')
		clean_list.append(item)
	return clean_list
coffee_list=['32Latte','_Americano30','/34Cappuccino','Mocha35']
clean_list=clean_list(coffee_list)

嘘嘘的小粥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python学习笔记（八）简单网络数据获取

Python学习笔记（八）网络数据获取初级一、如何获取网络数据二、抓取（1）urllib内建模块（2）Request第三方库（3）Scrapy框架三、解析（1）BeautifulSoup库（2）re模块一、如何获取网络数据抓取网页、解析网页内容二、抓取（1）urllib内建模块（2）Request第三方库Requests库是更简单、方便和人性化的Python HTTP第三方库R...
复制链接

扫一扫